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内 容 提要 








人 工 智能 领域 正在 以 人 们 想象 的 速度 发 展 ， 本 书 赶 在 人 工 智能 
彻底 “占领 "世界 之 前 完成 编写 ， 实 属 万 幸 。 


hy ee TARR de 其 
中 大 部 分 源 于 Hulu 算 法 研究 岗位 的 真实 场景 。 
各 种 有 趣 的 现象 出 发 ， AOL TDL baa 
成 为 优秀 算法 工程 师 的 相关 技能 笔者 对 人 工 智能 领 
Ie wth KEE KORINE, Kaua 扩展 本 是 的 能 
al 










网 络 、 强化 学 习 TEAL SURG LIN FSFE AU Hi 学 习 领 域 
胜 败 兴 训 之 著 ; “ 博 观 而 约 取 ， 厚 积 而 沙发 "， 在 最 后 一 章 为 读者 展示 生 
活 中 各 种 引领 时 代 的 人 工 智能 应 用 。 





推荐 序 


很 荣幸 有 机 会 推荐 清华 大 学 计算 机 系 1991 级 校友 诸葛 越 和 她 的 团队 
写 的 新 书 《 百 面 机 器 学 习 : 算法 工程 师 带 你 去 面试 》。 


毋庸 置疑 ， 人工 智能 现在 正在 攻 勃 兴起 ， 就 像 生 机 勃发 的 春天 ， 就 
说 它 Tepee Magl 愿 

EAM, Kl 

当然 



























我 们 期 望 的 下 一 波 大 潮 必 : 
论 探索 的 高 度 困难 性 ， 尚 难 大 潮 什么 时 候 才 会 
所 以 当下 的 我 们 ， 一 定 要 把 担 住 这 难得 的 机 遇 ， 抓 紧 收 
足够 丰硕 的 "果实"。 可 以 想象 ， 形 形 色色 的 
进 千家 万 户 ， 会 像 互 联网 一 样 ， 给 人 们 的 












p; > 际 应 
试 新 的 方法 TENISA, 他 们 了 解 需求 、 
法 、 反复 实验 并 持续 优化 。 他 们 是 人 工 智 能 新 一 代 技 术 的 


M 那么 ， 你 是 否 想 成 为 他 们 中 的 一 员 呢 ? 你 又 如 何 能 快速 成 为 他 们 中 
一 员 呢 ? 


也 许 这 本 书 可 以 帮 你 前 进一步 。 在 人 工 智能 技术 如 火 如 茶 的 时 代 
大 批 优秀 的 研究 员 和 程序 员 正 辛勤 致力 于 解决 人 工 智能 和 机 器 学 习 的 实 
际 应 用 问题 ， 市 场 上 急需 这 方面 的 技术 实 操 书 。 而 本 书 刚好 填补 了 这 方 
面 的 室 白 。 它 的 内 容 由 简 至 繁 依次 展开 ， 涵 盖 了 机 器 NE. 
MT AS ALI ERIE, EIA, ERE 
智能 从 业者 所 需要 的 技能 ， 又 能 学 会 掌握 这 些 技能 。 















数据 库 专业 委员 会 十 年 最 佳 论文 奖 (AM SIGMOD Test of Time 
Award) 。 回 国 后 她 也 常常 来 系 里 参加 活动 。 我 了 解 到 她 的 团队 中 的 每 
一 位 成 员 都 有 非常 优秀 的 背景 。 本 书 是 工业 界 每 天 从 事 机 器 学 习 工 作 的 
数据 科学 家 一 起 撰写 的 著作 ， 它 一 定 不 会 让 你 失望 。 
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人 工 智能 的 三 次 浪潮 


2018 年 年 初 ， 招 聘 季 正如 火 如 茶 地 进行 ， 而 "数据 科学 家 ”和 "算法 
工程 师 "绝对 算得 上 热门 职业 。 







“ 建 模 "…“ 卷 积 神经 网 络 "等 关键 
i 且 更 会 像 "数据 结构 *“ 排 
和 和 “链表” 一样， 成 为 软件 工程 师 的 必 备 技能 。 


人 工 智能 技术 正在 对 社会 结构 、 职 场 、 教 育 等 带 来 革命 性 的 变化 。 
未 来 几 年 是 人 工 智能 技术 全 面 普及 化 的 时 期 ， 也 是 该 技术 的 相关 人 才 最 
为 稀缺 的 时 期 。 所 以 ， 我 们 希望 能 够 通过 这 本 书 ， 帮 助 对 人 工 智能 和 机 
器 学 习 感 兴趣 的 朋友 更 加 深入 地 了 解 这 个 领域 的 基本 技能 ， 帮 助 已 经 有 
计算 机 技术 基础 的 同行 们 ， 成 为 驾驭 人 工 智能 和 机 器 学 习 的 高 手 。 


写 在 书 的 前 面 ， 我 先 简单 介绍 一 下 我 了 解 的 人 工 智能 和 机 器 学 习 的 
背景 和 历史 ， 解 释 为 什么 现在 是 学 习 机 器 学 习 算法 的 大 好 时 机 。 


里 我 与 人 工 智能 


我 的 本 科 专 业 是 人 工 智能 。 当 年 我 上 大 学 时 ， 清 华 大 学 的 计算 机 系 
每 个 年 级 有 6 个 班 ， 入 学 | 时 候 就 每 个 让 的 专业 分 好 。 我 们 三 班 的 专 
业 是 人 工 智能 。 所 以 在 本 科 的 时 候 ， 我 就 接触 到 许多 当时 人 工 智能 领域 
的 前 让 沿 技术 。 我 的 人 工 智能 入 门 课 SEEE li Sati kota 也 
是 《人 工 智能 导论 》 的 作者 。 这 门 课 被 我 们 戏 庄 为 “猴子 摘 香 燕 "， 因 为 
bill lst 3 智能 的 狼 子 ， 如 何 自己 组 合 积木 去 拿 到 天 闪 板 上 
ERNER. 


当时 清华 大 学 的 本 科 是 5 年 制 ， 正 要 开始 改革 ， 有 少 部 分 学 生 可 以 
在 四 年 级 的 时 候 开始 接触 研究 生 的 一 些 活动 ，6 年 可 以 拿 到 硕士 学 位 。 

















我 有 幸 被 选 这 几 个 学 生 之 一 
学 的 人 工 智能 和 
和 高 年 级 的 同学 们 那里 ， 我 学 到 入 工 智能 领域 不 少 当 eet 
识 。 


刚刚 进入 斯 坦 福 的 时 人 听 一 个 小 型 的 午餐 计 
也 就 是 一 二 十 个 人 吧 。 那 一 半 ， 教 室 门 突然 被 打开 ， 大 胡子 
的 约翰 .麦卡锡 (John McCarthy) 教 授 走 了 进来 ， 大 声 地 问 :“ 听 说 这 里 有 
不 要 钱 的 午饭 ?” 然后 他 走 到 房间 的 前 面 ， 抓 了 两 个 三 明治 ， 大 摇 大 摆 地 
走出 去 了 。 主 持 讲座 的 老师 惕 了 一 下 ， 说 :“ 欢 迎 大 家 来 到 斯 坦 福 一 一 
世界 上 最 著名 的 科学 家 会 走 进 你 们 的 教室 来 抢 你 们 食物 的 地 方 ! ” 


或 许 你 不 知道 , “人工 智能 "(Artificial Intelligence) 这 个 词 ， 就 来 自 约 
麦卡锡 。 


因为 本 科 是 人 工 智能 专业 ， 所 以 我 对 人 工 智能 一 直 比 较 感 兴趣 ， 在 
斯 坦 福 又 去 学 了 一 次 人 工 智能 课 CS140。 当 时 教 这 个 课 的 是 尼 尔 斯 :- 尼 尔 
森 (Nils Nilsson) 教授 。 他 是 另外 一 位 人 工 智 能 的 学 科 创始 人 和 世界 
级 专家 ， 写 作 了 被 广泛 引用 的 经 典 之 作 一 一 《对 人 工 智 能 的 探索 》 
(The Quest for Artificial Intelligence) 。 尼 和 尔 森 教授 的 课 非常 有 趣 ， 我 
还 跟 他 做 了 一 个 小 的 项 目 ， 规 划一 个 扫地 机 器 人 的 路 径 。 至今， 我 还 保 
留 了 这 门 课 的 笔记 。 

说 实话 ， 我 年 轻 的 时 候 每 天 做 作业 、 做 课题 ， 没 有 意识 到 ， 能 和 这 


些 顶 级 科学 家 同 党 是 多 么 幸运 的 事 ， 也 未 必 知道 自己 正在 见证 某 个 技术 
领域 的 世界 前 沿 。 最 项 尖 的 技术 ， 开 始 都 是 只 有 小 众 才 能 理解 和 欣赏 
的 。 












座 (Brown Bag), 























然而 ， 我 的 博士 论文 并 没有 专攻 人 工 智能 ， 反 而 做 的 是 大 数据 方 
向 ， 做 了 最 早 的 数据 仓库 和 数据 挖掘 工作 。 现 在 看 来 ， 我 这 几 次 和 人 工 
智能 以 及 人 工 智 能 大 咖 的 偶遇 ， 刚 好 和 人 工 智能 的 三 次 浪潮 有 关 。 第 一 
次 人 工 智能 的 浪潮 就 是 约翰 .麦卡锡 那 一 代 人 。 他 们 从 20 世 纪 50 年 代 开 
始 ， 打 下 了 计算 机 学 科 和 人 工 智能 的 理论 基础 。 第 二 次 是 我 在 清华 大 
学 期 间 ， 研 究 者 们 看 到 了 一 些 人 工 智能 应 用 的 可 能 性 ， 比 如 机 械 手 、 机 
器 人 、 专 家 系统 。 最 近 ， 基 于 大 数据 、 机 器 学 习 的 人 工 智能 再 次 兴起 ， 
可 以 称 为 人 工 智能 的 第 三 次 浪潮 。 


里 人 工 智能 的 三 次 浪潮 














我 来 简单 定义 和 解释 一 下 本 书 用 到 的 概念 。 


人 工 智能 泛 指 让 机 器 具有 人 的 智力 的 技术 。 这 项 技术 的 目的 是 使 机 

考 、 做 事 、 解 决 问题 “。 人 工 智能 是 一 个 宽泛 的 技 
言 理解 、 计算 机 视觉、 MEA, 逻辑 和 规划 
计算 机 专业 的 子 除了 和 计算 机 相关 ， 它 还 和 心理 学 、 
社会 学 等 有 不 少 交叉 。 


机 器 学 习 指 计算 机 通过 观察 环境 ， 与 环境 交互 ， 在 吸取 信 | 
习 、 自 我 更 新 和 进步 。 “大 家 都 了 解 计 算 机 程序 是 怎么 回 事 ， 
是 计算 机 可 以 执行 的 一 系列 的 指令 ， 比 如 打印 一 张 图 。 那 么 机 器 : 
我 们 熟知 的 程序 的 本 质 区 别 是 什么 呢 ? 你 可 以 想象 ， 某 个 程序 是 机 器 写 
的 ， 而 不 是 一 个 程序 员 写 机 器 怎么 知道 如 何 写 这 个 程序 呢 ? 这 
个 机 器 就 是 从 大 量 的 数据 的 。 


简单 地 说 ， 大 多 数 机 器 学 习 算 法 可 以 分 成 训练 (training) 和 测试 
(testing) 两 个 步骤 ， A EET. 训练 ， 一 般 需 要 训练 数 
， 就 是 告诉 机 器 前 人 的 经 验 ， 比 如 什么 是 猫 、 什 么 是 狗 、 看 到 什么 该 
If 的 结果 ， ELAS ALAR INTE EAL (FAKE HUB 叫 
模型 (model)。 总 体 上 来 说 ， 训 练 包括 有 监督 (supervised learning) 和 无 
监督 (unsupervised learning) 两 类 。 有 监督 好 比 有 老师 告诉 你 正确 答案 ， 
无 监督 仅 靠 观察 自学 ， 机 器 自己 在 数据 里 找 模 式 和 特征 。 深 度 学 习 
(deep learning) 是 机 器 学 习 的 一 种 方法 ， 它 基于 神经 元 网 络 ， 适 用 于 
音频 、 视 频 、 语 言 理 解 等 多 个 方面 。 


我 们 先 来 短暂 地 回顾 一 下 人 工 智能 的 三 次 浪潮 。 它 们 有 什么 特点 ? 
RAAT 它们 又 是 怎样 互相 联系 ， 如 何在 前 一 次 的 基础 之 上 建立 
2 




























第 一 次 人 工 智能 浪潮 大 约 在 20 世 纪 50 年 代 。1956 年 ， 在 达 特 茅 斯 的 
人 工 智能 研讨 会 上 ， 约 翰 . 麦 卡 锡 正 式 提出 “人 工 智能 * 这 个 概念 ， 被 公 
认 是 现代 人 工 智能 学 科 的 起 始 。 AE FINSKT TRE 3 文 : 明 斯 基 
(Marvin Minsky) HJA T fE. 


在 计算 机 被 发 明 的 早期 ， 许 多 计算 机 科学 家 们 就 认真 地 思考 和 讨论 
这 个 人 类 发 明 出 来 的 机 器 ， 和 人 类 有 什么 根本 区 别 。 图 灵机 和 图 灵 测 
试 ， 就 是 这 个 思考 的 一 个 最 典型 结果 。 最 初 的 那 批 思考 人 工 智能 的 专 
家 ， 从 思想 和 理论 上 走 得 非常 前 沿 ， 内 行 的 专家 很 早 就 看 到 了 计算 机 的 








潜力 。 我 们 现在 所 问 的 这 些 问题 ， 他 们 其 实 都 问 过 了 。 比 如 ， 什 么 
叫 * 推 理 *(reasoning), 机 器 如 何 推理 ， 什 么 叫 “ 懂 得 "(understanding)， 机 器 
如 何 什么 叫 知识 (knowledge)， 机 器 如 何 获 取 和 表达 知识 ， 什 么 时 
候 ， 我 们 无 法 分 辨 出 机 器 和 人 。 这 个 阶段 产生 了 许多 基础 理论 ， 不 仅 是 
人 工 智 能 的 基础 理论 ， 也 是 计算 机 专业 的 基石 。 














从 技术 上 来 说 ， 第 人 工 智能 的 大 发 展 ， 主 要 是 基于 逻辑 的 。 
1958 年 麦卡锡 提出 了 罗 辑 语言 ” LISP。 从 20 世 纪 50 年 代 到 20 世 纪 80 年 






研究 者 们 证 明了 计算 机 可 以 玩 游戏 行 一 定 程度 上 的 自然 语 

。 在 实验 室 里 ， 机 器 人 可 吕 辑 判断 、 搭 积木 ， 机 器 老鼠 
可 以 针对 不 同 的 路 径 和 障碍 做 出 决定 ， 小 车 可 以 在 有 限 的 环境 下 自己 驾 
驶 。 研 究 者 们 发 明了 神经 网 络 ， 可 以 做 简单 的 语言 理解 和 物体 识别 。 


然而 ， 在 人 工 智 能 的 前 二 三 ea 
领域 ， 人 们 实际 生活 中 的 用 处 却 几乎 没有 。20 世 纪 80 年 代 初 ， 

因为 缺乏 应 用 而 进入 so Corr, eet 
那 段 时 间 里 ， 人 工 智能 科学 家 们 决定 另辟蹊径 ， 从 解决 大 的 普 适 智能 问 
题 ， 转向 解决 策 此 领域 的 单一 问题 。 “专家 系统 "这 个 概念 被 提 了 出 来 ， 
它 让 这 些 研究 成 果 找到 了 第 一 个 可 能 的 商业 出 路 。 


计算 机 技术 经 过 了 30 年 左右 的 发 展 ， 数 据 存储 和 应 用 有 了 一 定 的 基 

完 者 们 看 到 人 工 智 能 和 数据 结合 的 可 能 性 ， 而 结合 得 最 好 的 应 用 

系 果 我 们 能 把 某 一 个 行业 的 数据 ， 比 如 说 关于 心脏 病 

诉 一 个 机 器 ， 再 给 它 一 些 逻辑 ， 那 这 个 机 器 岂 不 是 就 
如 果 我 们 要 看 病 ， 是 否 就 可 以 问 它 ? 


看 病 、 预 报 天 气 等 各 行 各 业 的 专 ， 听 起 来 非常 有 希望、 有 意 
义 ， 也 确实 有 实际 的 应 用 场景 ， 所 以 当时 学 术 界 对 人 工 智 
热 然而 ， 比较 有 意思 的 是 ， 当 我 们 想 要 用 这 些 
的 时 候 ， eee a N 






























面 ， 或 者 是 在 一 AERAN REM, 拿 不 到 ， FT 





在 一 批 人 致力 于 把 世界 上 每 一 本 书 、 每 一 张 图 、 每 一 个 处 方 都 变 成 





电子 版 的 时 候 ， 互 联网 的 广泛 应 用 ， 又 把 这 些 信息 相互 联接 了 起 来 ， 成 
了 真正 的 大 数据 。 同 时 ， 摩 尔 定律 (Moore's law) 预测 的 计算 性 能 增加 
一 直 在 起 作用 。 随 着 计算 能 力 的 指数 增长 ， 那 些 只 能 在 实验 室 里 或 有 限 
场景 下 实现 的 应 用 ， 离 现实 生活 越 来 越 近 了 。1997 年 ， = 

象棋 冠军 Garry ”Kasparov， 和 2017 年 AlphaGo 围 
样 ， 被 公认 是 一 个 里 程 碑 。。 其 实 ， 随 着 计算 能 力 的 提高 ， 在 这 些 单一 
的 、 有 确定 目标 的 事情 上 机 器 打败 人 ， 都 只 是 个 时 间 问题 。 


第 三 次 的 人 工 智能 浪潮 就 是 基于 另外 两 个 技术 领域 的 大 发 展 ， 一 
是 巨大 的 计算 能 力 ， 一 个 是 海量 的 数据 。 巨 大 的 计算 能 力 来 自 于 硬 
TA ADAR, ME Gi eee MEARE 
件 系统 (neural-network-based computing) 又 一 次 推动 了 人 工 智能 软 而 
件 结合 的 大 进步 。 海 量 的 数据 来 源 于 前 几 十 年 的 数据 积累 和 互联 网 技术 
的 发 展 。 比 如 ，2001 年 上 市 的 GPS 系统 ， 带 来 前 所 未 有 的 大 量 出 行 数 
据 ; 智能 手机 带 来 了 前 所 未 有 的 人 们 生活 习性 的 数据 ， 等 等 。 计 算 能 力 

和 数据 的 结合 ， 促 进 、 催 化 了 机 器 学 习 算法 的 飞跃 成 长 。 

这 次 的 人 工 智能 浪潮 起 始 于 近 10 年 。 技 术 的 飞跃 发 展 ， 带 来 了 应 用 
前 所 未 有 的 可 能 性 。 最 近 这 次 人 工 智能 浪潮 和 前 两 次 最 基本 的 不 同 是 
它 的 普遍 应 用 和 对 普通 人 生活 的 影响 。 也 就 是 说 ， 人 工 智能 离开 了 学 
术 实 验 室 ， 真 正 走 进 大 众 的 视野 

n 人工 智 能 全 面 通 近 人 类 能 力 ? 


为 什么 这 次 人 工 智能 浪潮 如 此 凶猛? 人 工 智能 真 的 全 面 逼近 了 人 类 
的 人 工 智能 技术 现在 发 展 到 什么 阶段 ? 我 们 先 来 看 3 个 简单 的 






























首先 ， 历 史上 第 一 次 ， 计 算 机 在 很 多 复杂 任务 的 执行 上 超过 人 类 
或 者 即将 超过 人 类 ， 比 如 图 像 识别 、 视 频 理解 、 机 器 翻译 、 汽 车 驾 
驶 、 下 围棋 ， 等 等 。 这 些 都 是 人 们 容易 理解 的 ， 一 直 由 人 类 完成 的 任 
务 。 所 以 ， 人 工 智能 取代 人 类 的 话题 开始 出 现在 各 种 头条 。 


其 实 ， 在 单一 技术 方面 ， 许 多 计算 相关 的 技术 早已 超过 人 类 的 能 
ae ue een Baam i 搜 图 、 股票 交易 。 eee 





然而 ， 近 几 年 来 机 器 完成 的 任务 ， 从 复杂 性 和 形式 越 来 越 逼 近 人 
类 。 比 如 ， 基 于 机 器 学 习 的 自动 驾驶 技术 已 经 趋 于 成 熟 ， 这 项 技术 不 仅 
会 对 人 们 的 出 行 方式 有 革命 性 的 影响 ， 而 且 会 影响 到 城市 建设 、 个 人 消 
费 、 生 活 方式 。 人 们 也 许 再 也 不 需要 拥有 汽车 ， 再 也 不 需要 会 开车 。 大 
家 对 这 类 新 技术 的 快速 到 来 既 兴 奋 又 恐惧 ， 一 方面 享受 技术 带 来 的 便 
利 ， 另 一 方面 又 对 太 快 的 变化 有 些 手 足 无 措 。 


另外 ， 计 算 机 的 自学 习 能 力 不 断 增强 。 现 代 机 器 学 una 
度 学 习 类 机 器 学 习 算法 的 发 展 ， 使 机 器 的 行为 不 再 是 相对 可 预测 
ee “逻辑 "， 而 更 像 黑 盒 思考 ”， TT PROP EEE 
能 力 


然而 ， 仔 细 看 来 ， 昌 然 在 不 少 特 殊 领 域 中 ， 人 工 智能 有 了 突 飞 儿 
进 的 发 展 ， 但 是 距离 人 工 智能 的 其 祖 们 在 第 一 次 浪潮 时 研究 的 通用 智 
能 (general purpose intelligence) 其 实 还 相差 非常 远 。 这 是 第 二 个 事 
址 机 是 被 在 和 定 博 况 下 全 硅 定 任务 ， 只 个 过 任务 更 复杂 了 
机 器 还 是 缺少 一 些 最 基本 的 人 的 智能 ， 比 如 常识 。 人 工 智能 仍然 无 法 理 
AMIEIRO, CMAN. Bice BAVA MAD 
忙 、 合 作 ， 机 器 都 是 做 不 到 的 。 好 比 有 人 开玩笑 说 :“ 它 们 还 是 不 会 炒 




















第 三 个 事实 ， 是 这 次 人 工 智能 和 机 器 学 的 应 用 场景 
近 几 年 人 工 智能 和 机 器 学 习 应 用 的 大 发 展 ， 这 个 曾 或 的 
间 进 入 大 众 视野 ， 成 为 和 未 来 相关 的 必 谈 话题 。 Tee. 
解 ， 都 被 提 到 应 用 层 。 算 法 类 的 应 
渗入 人 们 生活 的 方方面面 。 大 
诊断 、 机 器 助手 、 智 慧 城市 、 新 
i 谈论 的 比如 农业 生产 的 自动 化 、 老 
人 和 儿童 的 护理 、 危险 情景 、 交 通 调度 ， 等 等 。 我 们 很 难 想象 社 
会 的 哪 一 个 方面 ， 不 会 被 这 次 浪潮 所 波及 。 


向 前 看 十 年 ， 人 工 智 能 和 机 器 学 习 的 大 发 展 ， 在 于 这 些 技术 的 普及 
和 应 用 。 大 批 的 新 应 用 将 会 被 开发 ， 人 工 智能 基础 设施 会 迅速 完善 ， 原 
有 的 传统 软件 和 应 用 需要 被 迁移 使 用 新 的 算法 。 所 以 ， 现 在 是 成 为 一 个 
人 工 智 能 和 机 器 学 习 专家 的 良机 。 


里 这 本 书 是 如 何 写 成 的 




















海内 海外 ， 媒 体 行业 一 直 都 走 在 人 工 智能 应 用 的 最 前 沿 ， 因 为 
媒体 往往 接触 上 千 万 甚至 上 亿 的 用 户 ; 有 千变万化 的 用 户 每 天 离 不 开 的 
内 容 ， 比 如 新 闻 、 体 育 、 电 影 ， 有 丰富 多 彩 的 内 容 与 用 户 的 结合 场景 ; 
还 有 丰厚 的 有 创意 的 商机 。 


家 国际 领先 的 视频 媒体 公司 ， 提 供 优质 电影 、 电 视 剧 点 播 

和 直播 节目 。 Hl 技术 梨 构 最 为 先进 的 点 是 人 工 智能 和 庙堂 习 算 法 
的 广泛 应 用 ， 用 在 个 性 化 内 容 推荐 、 搜 索 、 视 频 内 容 理解 、 视 频传 输 和 

oe 广告 预测 和 定向 、 安 全 检测 、 决 策 支持 ， 甚 至 视频 编辑 和 客服 
+f 算法 的 至 后 是 专门 打 的 大 规模 数据 处 理 系统 ,算法 


ERA 全 面 算法 化 "的 一 家 带头 公司 。 

为 了 支持 各 类 的 人 工 智能 算法 应 用 ，Hulu 在 北京 | 
了 大 批 人 工 智能 和 机 器 学 习 的 顶尖 人 才 
师 和 软件 工程 师 都 工作 在 同 每 天 解决 用 户 的 实际 问题 ， 积 黑 
kg 气氛 也 相当 浓厚 。 除 了 定期 的 忆 


量 实用 的 经 验 。Hulu Its 
专题 研讨 和 大 数据 及 机 公开 课 ，Hulu 也 在 内 部 开设 了 深度 


学 习 课 程 。 
2017 年 年 底 ， 人 民 邮 电 出 版 社 的 俞 彬 编辑 问 我 能 否 写 一 本 关于 人 工 







































智能 和 机 器 学 操 的 书 。 目 前 市 场 上 有 关 人 工 智 能 的 书 可 以 分 为 
两 类 ， 一 类 是 科 书 ， 还 有 一 类 是 关于 人 工 智能 和 人 类 未 来 
的 社 科 类 图 书 。 我 们 能 和 否 写 一 本 实 操 类 的 书 ， 介 绍 一 个 真正 的 计算 机 从 


业 人 员 需 要 掌握 的 技能 呢 ? 


抱 着 试 一 试 的 心理 ， 我 让 公司 里 的 同事 自愿 报名 参加 这 个 集体 项 
目 。 一 共有 15 位 资深 研究 员 和 算法 工程 师 参与 了 这 本 书 的 内 容 创 作 ， 这 
是 个 成 功 的 合作 案例 。 我 们 先 学 习 了 一 下 现 有 的 相关 书籍 ， 然 后 头脑 风 
暴 了 一 番 ， 觉 得 我 们 可 以 做 一 个 问答 集 ， 以 比较 有 趣 的 问答 形式 ， 集 中 
当前 算法 工程 师 和 研究 员 感 兴趣 的 话题 ， 用 问答 引出 这 个 行业 的 基本 概 





在 互联 网 行业 ， 敏 捷 开 发 都 是 以 最 快 的 速度 ， 做 一 个 “最 小 化 产 
品 *"， 让 用 户 的 反馈 来 带领 产品 的 方向 。 我 们 写 这 本 书 也 是 如 此 。 为 了 
让 大 家 能 够 落笔 写 出 没有 错误 、 通 俗 易 懂 的 问答 ， 为 了 收集 读者 的 反 
馈 ， 也 为 了 不 把 写 一 本 大 部 头 书 列 为 第 一 天 的 目标 ， 我 们 先 在 Hulu 的 微 
信 公 众 号 上 ， 以 每 周 发 两 个 问答 的 形式 ， 从 2017 年 11 月 到 2018 年 3 月 期 








H, 











关于 书 的 章节 组 织 ， 我 们 也 进行 过 仔细 
AMEER, 我 们 的 理念 是 要 涵盖 该 领域 最 基本 的 













样 、 特 征 工 
需要 比较 深 的 背景 知识 ， 所 以 在 
或 做 简单 的 背景 介绍 。 每 个 问答 有 不 同 





程 模型 评估 。 BW BLA" 
每 个 问题 和 解答 之 前 
的 难度 ， 以 供 读者 自我 


心 的 机 器 学 习 算法 问答 内 5 
算法 工程 师 的 自我 修养 * 
作 内 容 和 要 求 。 这 些 实例 可 以 帮助 广大 的 者 了 解 掌握 机 器 
后 的 工作 和 去 向 。 二 是 “人 工 智能 热门 应 用 ”"， 术 


容 之 外 ， 我 们 增加 了 两 个 部 分 ， 一 
介绍 业界 典型 的 算法 工程 上 










下 少 读者 都 听 说 过 这 
些 应 用 的 故事 ， 比 如 无 人 驾驶 车 、AlphaGo 等 。 我 们 希望 从 内 行人 的 角 
释 之 些 超 级 应 用 背后 的 原理 是 什么 。 当 你 读 完 本 书 ， 掌 握 了 






度 ， 
机 器 学 习 技能 以 后 ， 你 也 可 以 在 幕后 操作 这 ] 的 智能 应 用 了 。 

本 书信 息 量 很 大 ， 涉 猎人 工 智能 和 机 器 学 习 的 各 个 子 领域 。 每 个 公 
司 、 每 个 业务 、 每 个 职位 ， 不 一 定 会 用 到 全 部 的 技能 。 所 以 关于 阅读 这 
本 书 ， 我 有 以 下 几 个 建议 。 


(1) 顺 读 法 : 从 头 至 尾 阅 读 。 如 果 你 能 读 懂 全 部 内 容 ， 所 有 的 题 
目 都 会 解答 ， 欢 迎 你 到 Hulu 来 申请 工作 吧 ! 


(2) 由 简 至 难 法 : ”每 道 题 的 旁边 都 标明 了 难度 。 一 星 最 简单 ， 五 
星 最 难 。 在 本 书 中 ， 还 提供 了 一 个 题目 的 列表 。 一 颗 星 的 题目 ， 主 要 是 
介绍 基本 概念 ， 或 者 是 为 什么 要 做 某 一 件 事 ， 比 如 “什么 是 ROC 曲 
线 ? 什么 需要 对 数值 类 型 的 特征 做 归 一 化 ? “"。 如 果 你 是 机 器 学 习 
的 入 门 学 习 者 ， 可 以 从 背景 知识 和 简单 的 题目 出 发 循序 渐进 。 


(3) 目标 工作 法 : 不 是 所 有 的 公司 、 所 有 的 职位 都 需要 懂得 各 类 
算法 。 如 果 你 目前 的 工作 或 者 想 去 的 工作 在 某 个 领域 ， 它 们 可 能 会 用 到 
某 几 类 算法 。 如 果 你 对 某 个 新 的 领域 很 感 兴趣 ， 比 如 循环 神经 网 络 ， 那 





你 可 以 专攻 这 些 章节 。 不 过 无 论 用 哪 类 算法 ， 特 征 工程 、 模 型 评估 等 基 
本 技能 都 是 很 重要 的 。 








讲 得 面面俱到 ， 尤 
& 们 在 很 多 章节 后 
这 本 书 为 起 点 ， 


其 是 题目 和 解答 ， 可 以 举 一 
都 有 总 结 和 扩展 。 对 某 个 领 
深入 到 扩展 阅读 ， 成 为 这 一 方面 的 专家 。 


(5) 老板 读书 法 : 如 果 你 是 一 个 技术 管理 者 ， 你 需要 解决 的 问题 
是 算法 可 能 对 你 现 有 的 技术 体系 有 什么 帮助 ， 和 怎么 找到 合适 的 人 ， 帮 
你 做 出 智能 的 产品 。 建 议 你 可 以 粗略 地 浏览 一 下 本 书 ， 了 解 机 器 学 习 的 
各 个 技术 领域 ， 找 到 合适 的 解决 方案 。 然后， 你 就 可 以 用 本 书 作 面试 宝 
典 了 。 


这 本 书 出 版 的 目的 ， 是 让 更 多 的 人 练习 和 掌握 机 器 学 习 相关 的 知 
识 ， 帮 助 计算 机 行业 人 员 了 解 算法 工程 师 需要 的 实际 技能 ， 帮 助 软件 工 
程 师 成 为 出 色 的 数据 科学 家 ， 帮 助 公司 的 管理 者 了 解 人 工 智 能 系统 需要 
的 人 才 和 技能 ， 帮 助 所 有 对 人 工 智 能 和 机 器 学 习 感 兴趣 的 朋友 们 走 在 技 
术 和 时 代 的 前 沿 。 


人 工 智 能 和 机 器 学 习 的 算法 还 在 日 新 月 异地 发 展 中 ， 这 本 书 也 会 不 
断 更 新 ， 不 断 地 出 新 版 本 。 和 希望 得 到 读者 朋友 们 的 悉心 指正 ， 让 我 们 一 


起 跟 上 这 个 技术 领域 的 进步 步伐 。 
说 Ar 


2018 年 4 月 10 日 





机 器 学 习 算 法 工程 师 的 自我 修养 





币 的 进 阶 之 路 是 崎 岷 险阻 
方法 ) 《机 器 学 习 》《 模 式 识别 》《 深 度 
ERREA 这 些 书籍 将 长 久 地 伴随 着 你 的 工作 生 


除了 拥有 全 面 、 有 条 理 的 知识 储备 ， 我 认为 ， 想 成 为 一 名 优秀 的 算 
法 工程 师 ， 更 重要 的 是 对 算法 模型 有 着 发 自 心底 的 热忱 ， 对 研究 工作 有 
心 精神 。 这 种 匠心 精神 ， 直 白 来 讲 ， 可 以 概 发 现 问题 的 眼 
问题 的 探索 精神 ， 以 及 对 问题 究 原 竞 委 的 执着 追求 。 ae 我 
MAAE A 小 故事 ， 也 是 发 生 在 本 书 作者 身边 真实 的 情 


在 微 信 红 包 占 领 家 家 户 户 年 夜饭 的 那个 时 代 ， 我 们 的 小 伙伴 也 没有 
例外 。 一 群 心 有 猛 虎 、 细 嗅 著 薇 的 算法 研究 员 深 切 意识 到 自己 不 仅 手 速 
5 ZEAR. EKDA FIERAR, AIE Tie 
策略 的 相关 文献 ， 发 现 国内 外 下 ji 
教 命运 ， 他 们 决定 将 红包 机 制 的 公 
拟 实验 ， 统 计 在 不 同 顺 位 领 到 红包 的 大 小 。 数 据 分 析 显示 ， 越 后 面 领 到 
红包 的 人 ， 虽 然 红包 金额 的 期 望 〈 均 值 ) 和 前 面 的 人 相同 ， 但 方差 会 更 
大 ， 这 也 意味 着 他 们 更 容易 获得 一 些 大 额 红包 。 从 此 ， 掌 握 这 一 规律 的 
研究 员 们 在 各 个 群 中 “ 履 试 不 爽 "， 再 也 没有 抢 到 过 红包 ， 留 下 的 只 
有 "“ 手 乙 了 ， 红 包 派 完了 ” 几 个 大 字 。 


新 年 钟 声 敲 响 的 时 分 临近 ，Boss 级 别 的 人 物 往往 会 在 故里 发 一 些 超 
BRIA. RE ig 

还 没 来 得 及 : 成 “ 老 

气 500 多 元 Hoi Eta Wee 
算法 工程 师 们 产生 了 新 的 思考 - 

会 减 小 "人 品 " 因 素 带 来 的 
数学 推导 确认 这 一 结论 ， 还 设计 证 明了 多 个 红包 的 确 会 缩 
小 不 同人 领 到 红包 人 金额 之 间 的 差异 性 〈 方 差 ) 。 从 此 ， 他 们 组 的 Leader 
在 发 大 红包 的 时 候 都 会 纪 意 平均 分 成 几 份 ， 婚 增加 了 大 家 抢 红包 的 乐 
趣 ， 又 避免 了 有 人 因 运气 不 佳 而 扼腕 兴叹 的 愤 租 。 


《线性 代数 》 
》， 以 及 《 颈 










































然 ， 故 事 不 止 于 此 。 利用 红包 的 特性 编 
选 着 一 批 又 一 批 的 机 : 算法 工程 师 ， 例 如 ， 
机 数 … 用 红包 随机 选 出 n 个 候选 人 ”， 
后 续 章 节 中 亦 不 难 寻 其 踪 


这 种 探究 问题 的 匠心 精神 充斥 着 他 们 生活 的 各 个 角落 。 每 天 下 楼 吃 
饭 等 电梯 的 时 候 ， 因 担心 上 厕所 错过 电梯 ， 他 们 建立 多 个 模型 分 析 不 同 
时 段 电梯 平均 等 待 时 间 对 应 厕所 时 机 的 最 优选 择 ， 在 夕阳 的 余晖 下 欣赏 
湖 光 塔 影 时 ， 他 们 会 思考 为 何故 妾 波光 成 了 图 像 编码 中 的 棘手 难题 ; 打 
开 购 物 App 看 着 目不暇接 的 喜欢 抑或 不 喜欢 的 商品 ， 他 们 反思 自己 搭建 
的 推荐 系统 是 否 也 会 让 用 户 有 着 相同 的 无 奈 或 是 欣喜 。 每 一 件 小 事 ， 
为 对 研究 有 了 热爱， 都 可 以 成 为 工作 的 一 部 分 ， 成 为 开启 机 器 学 习 大 门 
的 钥匙 。 


工作 中 的 算法 工程 师 ， 很 多 时 候 ， 会 将 生活 中 转 肯 即 逝 的 灵感 ， 付 
诸 产品 化 。 组 里 的 一 位 同事 在 看 某国 产 剧 的 时 候 ， 发 现 可 以 非常 方便 地 
跳 过 片头 和 片尾 。 从 消费 者 的 角度 出 发 ， 这 的 确 是 一 个 大 有 神 益 的 产品 
特征 ， 于 是 他 仔细 统计 了 我 们 自己 平台 的 视频 源 数 据 ， 发 现 只 有 一 部 分 
视频 含有 片头 、 片 尾 的 时 间 
有 百 万 量 级 内 容 ; 
片尾 信息 有 如 天 方 夜 谭 ty ~ Hi 取 前 人 ， 
作 之 精华 ， 不 断 加 以 创新 ， 依 据 自己 的 数据 特点 量体裁衣 ， 他 们 的 团队 
设计 出 了 一 种 基于 深度 神经 经 网 络 与 浅 层 特 征 融合 的 片尾 自动 检测 模型 。 
经 过 反复 的 迭代 与 充分 的 实验 ， 得 到 了 令 人 满意 的 结果 。 这 一 工作 也 申 
请 了 美国 发 明 专 利 ， 并 一 步 步 走向 产品 化 。 


将 算法 研究 应 用 到 工作 中 ， 与 纯粹 的 学 术 研究 有 着 一 点 最 大 的 不 
同 ， 即 需要 从 用 户 的 角度 思考 问题 。 很 多 时 候 ， 你 需要 明确 设计 的 产品 
特征 、 提 升 的 数据 指标 ， 是 不 是 能 真正 迎合 用 户 的 需求 算法 
工程 师 能 在 多 个 模型 间 选 择 出 最 合适 的 那个 i 
个 可 以 走向 产品 化 的 结果 。 这 种 创新 精神 S RAMEE E 
工作 中 的 体现 。 


一 系列 面试 
用 红包 产生 随 
诸如 此 类 源 自生 活 的 小 问题 在 本 书 
































心 精神 诚 可 贵 ， het Melia ep ee 
vanist 这 本 书 的 初 囊 。 扎 实 的 数学 基础 、 完 整 的 算法 体 
的 模型 理解 ， ERMAN AMEZ NE, 本 书 前 几 章 内 容 ， 如 
特征 工程 、 模 型 评估 、 经 典 模型 等 ， 是 机 器 学 习 领 域 的 基石 ， 是 每 个 算 
法 工程 师 应 该 融会 贯通 ， 内 化 于 自己 知识 体系 中 的 。 而 想 成 为 一 个 研究 





专业 或 是 应 用 领域 的 专家 ， 则 需要 在 技能 树 中 的 某 几 个 分 支 不 断 生长 发 
展 。 或 许 大 家 都 听 过 啤酒 与 尿布 的 小 故事 ， 但 搭建 一 个 成 熟 、 稳 定 的 推 
荐 系统 ， 不 仅 需要 通晓 降 维 (第 4 章 ) 、 优 化 算法 (第 7 章 ) ， 更 要 对 神 
经 网 络 第 9 章 、 第 10 章 ) 、 强 化 学 习 《第 11 章 ) 等 新 生 代 模型 不 断 钻 
研 、 深 入 理解 ， 将 学 术 前 沿 与 产品 形态 紧密 结合 。 例 如 ， 若 是 在 技能 树 
中 专攻 马尔 可 夫 模 型 、 主 题 模型 《第 6 章 ) ， 建 立 完整 的 概率 图 模型 知 
识 网 络 ， 并 将 循环 神经 网 络 (第 10 章 ， 的 理论 体系 融会 贯通 ， 形 成 自己 
独到 的 理解 和 感悟 ， 便 可 以 在 机 器 翻译 、 语 音 聊天 助手 等 自然 语言 处 理 
的 应 用 场景 中 驾 WAAR. 


RARE SCE TARE SEL TL RUR, ATIE HG EROE RA o 
你 需要 做 的 只 是 ， 自己 真正 想 成 为 的 那个 角色 ， 踏 踏实 实地 在 本 书 
中 汲取 足够 多 的 养分 ， 然 后 ， 静 静 合 上 书页 ， 在 生活 中 体会 种 种 细节 ， 
感受 机 器 学 习 的 璀璨 多 姿 。 
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针对 K 均 值 到 类 的 缺点 ， 有 哪些 改进 的 模型 ? 
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第 1 章 HEI 













俗话 说 ，“ 巧 妇 难 为 无 米 之 
横 和 和 算法 由 te 4 
pean 填 构 也 无 法 得 到 满 界 经 典 的 话 所 

说 ， “Garbage in, garbage out”. X) 问题 ， 数 据 和 特征 往 
era 结果 的 上 眼 ， 而 模型 、 Skt RIDER ies ig) eae 


特征 工程 ， 顾 名 思 义 ， 是 对 原始 数据 进行 一 系列 工程 处 理 ， 将 其 提 
炼 为 特征 ， 作 为 输入 供 算法 和 模型 使 用 。 从 本 质 上 来 讲 ， 特 征 工程 是 一 
个 表示 和 展现 数据 的 过 程 。 在 实际 工作 中 ， 特 征 工程 旨 在 去 除 原 始 数据 
sha RITA, 设计 更 高 效 的 特征 以 刻画 求解 的 问题 与 预测 模型 之 间 
的 关系 。 

















本 章 主要 讨论 以 下 两 种 常用 的 数据 类 型 。 


(1) 结构 化 数据 。 结 构 化 数据 类 型 可 以 看 作 关系 型 数据 库 的 一 张 
表 ， 每 列 都 有 清晰 的 定义 ， 包 含 了 数值 型 、 类 别 型 两 种 基本 类 型 ; 每 一 
行 数据 表示 一 个 样本 的 信息 


(2) 非 结 构 化 数据 。 非 结构 化 数据 主要 包括 文本 、 图 像 、 音 频 、 
视频 数据 ， 其 包含 的 信息 无 法 用 一 个 简单 的 数值 表示 ， 也 没有 清晰 的 类 
别 定义 ， 并 且 每 条 数据 的 大 小 各 不 相同 。 











01 特征 归 一 化 


为 了 消除 数据 特征 之 间 的 量 纲 影响 ， 我 们 需要 对 特征 进行 归 一 化 处 
同 指标 之 间 具 有 可 比 性 。 例 如 ， 分 析 一 个 人 的 身高 和 体重 对 
健康 的 影响 ， 如 果 使 (kg) 作为 单位 ， 那 么 身高 特征 
会 在 1.6 ya HA, 特征 会 在 50 一 100kg 的 范围 内 ， 分 析 
然 会 于 数值 差别 比较 大 的 体重 特征 。 想 要 得 到 更 为 准 

就 需要 进行 特征 归 一 化 (Normalization) 处 理 ， 使 各 指标 处 
， 以 便 进 行 分 析 。 


















特征 归 一 化 


问题 为 什么 需要 对 数值 类 型 的 特征 做 归 一 化 ? 


难度 : deta ded 


分 析 与 解答 


对 数值 类 型 的 特征 做 归 一 化 可 以 将 所 有 的 特征 都 统一 到 一 个 大 致 相 
同 的 数值 区 间 内 。 最 常用 的 方法 主要 有 以 下 两 种 。 


(1) 线性 函数 归 一 化 (Min-Max Scaling) 。 它 对 原始 数据 进行 线 
性 变换 ， 使 结果 映射 到 [0, 1 的 范围 ， 实 现 对 原始 数据 的 等 比 缩放 。 归 一 
化 公式 如 下 


an 
其 中 X 为 原始 数据 ，Xow、Xin 分 别 为 数据 最 大 值 和 最 小 值 。 


(2) 零 均 值 归 一 化 (Z-Score Normalization) 。 它 会 将 原始 数据 映 

射 到 均值 为 0、 标 准 差 为 1 的 分 布 上 。 具 体 来 说 ， 假设 原始 特征 的 均值 为 
Hh 标准 差 为 os， 那 么 归 一 化 公式 定义 为 
-X4 
O. 


(2) 


为 什么 需要 对 数值 型 特征 做 归 一 化 呢 ? 我 们 不 妨 借助 随机 梯度 下 降 
的 实例 来 说 明 归 一 化 的 重要 性 。 假 设 有 两 种 数值 型 特征 ，x, 的 取 值 范围 
为 [0，10]，xs 的 取 值 范围 为 [0，3]， 于 是 可 以 构造 一 个 目标 函数 符合 
11 (a) 中 的 等 值 图 。 


在 学 习 速 率 相同 的 情况 下 ，x 的 更 新 速度 会 大 于 xs， 需 要 较 多 的 迭 
代 才 能 找到 最 优 解 。 如 果 将 x 和 xs 归 一 化 到 相同 的 数值 区 间 后 ， 优 化 目 
的 等 值 图 会 变 成 图 1.1 b) 中 的 圆 形 ，x 和 xz 的 更 新 速度 变 得 更 为 一 
， 容 易 更 快 地 通过 梯度 下 降 找到 最 优 解 。 








(a) amia (0) ademe TE 





图 LI1 数据 归 一 化 对 梯度 下 降 收效 速度 产生 的 影响 





当然 ， 数 据 归 一 化 并 不 是 万 能 的 。 在 实际 应 用 中 ， 通 过 梯度 下 降 法 
求解 的 模型 通常 是 需要 归 一 化 的 ， 包 括 线性 回归 、 逻 辑 回归 、 支 持 向 量 









络 等 模型 。 但 对 于 决策 树 模型 则 并 不 适用 ， 以 C4.5 为 例 ， 决 

树 节点 分 裂 时 主要 依据 数据 集 D 关 于 特征 增益 比 〈 详 见 
第 3 章 第 3 节 ) ， 而 信息 增益 比 跟 特征 是 否 经 过 归 一 化 是 无 关 的， 因为 归 
一 化 并 不 会 改变 样本 在 特征 x 上 的 信息 增益 。 








类 别 型 特征 (Categorical Feature) 主要 是 指 性 别 ( 男 、 女 )、 
(A, By AB, O) 等 只 在 有 限 选项 内 取 值 的 特征 。 vine 
入 通常 是 字符 串 形式 ， 除 了 决策 树 等 少数 模型 能 直接 处 理 字符 串 形 
输入 ， 对 于 逻辑 回归 、 支 持 向 量 机 等 模型 来 说 ， 类 别 型 特征 必须 经 过 处 
理 转换 成 数值 型 特征 才能 正确 工作 。 





知识 点 


序号 编码 (Ordinal Encoding) 、 独 热 编 码 (One-hot Encoding) 、 
二 进 制 编码 (Binary Encoding) 


问题 在 对 数据 进行 预 处 理 时 ， 应 该 怎样 处 理 类 别 型 特 
征 ? 


难度 : deters oe 
分 析 与 解答 
里 序号 编码 
序号 编码 通常 





以 分 为 低 、 中 、 高 三 ; Bi 
按照 大 小 ee 
为 2、 低 表示 为 1， Peres 


序号 BANA 
RAAI 中 表示 、 


里 独 热 编码 


独 热 编码 通常 用 于 处 理 类 别 间 不 具有 大 小 关系 的 特征 。 例 如 血型 ， 
一 共有 4 个 取 值 (A 型 血 、B 型 血 、AB 型 血 、O 型 血 ) ， 独 热 编码 会 把 血 
型 变 成 一 个 4 维 稀疏 向 量 ，A 型 血 表 示 为 《1, 0, 0, 0) ，B 型 血 表 示 为 CO, 
1,0,0) ，AB 型 表示 为 0, 0,1,0) ，O 型 血 表示 为 (0, 0, 0, D 。 对 于 
类 别 取 值 较 多 的 情况 下 使 用 独 热 编码 需要 注意 以 下 问题 。 


(1) 使 用 稀疏 向 量 来 节省 空间 。 在 独 热 编码 下 ， 特 征 向 量 只 有 某 
一 维 取 值 为 1， 其 他 位 置 取 值 均 为 0。 因 此 可 以 利用 向 量 的 稀疏 表示 有 效 
地 节省 空间 ， 并 且 目 前 大 部 分 的 算法 均 接受 稀疏 向 量 形式 的 输入 。 


(2) 配合 特征 选择 来 降低 维度 。 度 特征 会 带 来 几 方面 的 问 
a. 一 在 K 近 邻 算法 中 ， 高 维 空间 下 
衡量 ， 二 是 在 逻辑 回归 模型 中 ， 4 mn, 
容易 引起 过 拟 合 问 4 有 部 分 维度 是 对 分 类 、 预 测 有 帮助 ， 
因此 可 以 考虑 配合 特征 选择 来 降低 维度 。 


me SE i] 


进 制 编码 主要 分 为 两 步 ， 先 用 序号 编码 给 每 个 类 别 赋予 一 个 类 别 
1D, AEA AAN 进 制 编码 作为 结果 。 以 A、B、AB、O 血 型 
为 制 编码 wrens 制 表示 为 001; 
， - 进 制 表示 为 010， 以 此 类 推 可 以 得 到 AB 型 血 和 O 型 血 
的 二 进 制 表示 。 可 以 看 出 ， 二 进 制 编码 本 质 上 是 利用 二 进 制 对 ID 进行 哈 
和 希 映 射 ， 最 终 得 到 0/1 特 征 向 量 ， 且 维 数 少 于 独 热 编码 ， 节 省 了 存储 空 
间 。 



























RLL 二 进 制 编码 和 独 热 编码 









































血型 | 类 别 ID =i 独 热 编码 

A 1 of of if af of of o 
B 2 of if of of af of o 
AB 3 of if af of of af o 
o 4 sf oA of of of of 1 












































除了 本 章 介 绍 的 编码 方法 外 ， 有 兴趣 的 读者 还 可 以 进一步 了 解 其 他 
的 编码 方式 ， 比 如 Helmert Contrast, Sum Contrast. Polynomial 
Contrast, Backward Difference Contrast“. 


03 ”高 维 组 合 特征 的 处 理 


知识 点 
组 合 特征 
问题 什么 是 组 合 特征 ?如 何 处 理 高 维 组 合 特征 ? 
难度 poked ss 
分 析 与 解答 






为 了 提高 复杂 关系 的 拟 合 能 力 


组 合 特征 对 点 击 的 影响 。 


表 1.2 语音 和 类 型 对 点 击 的 影响 





£ papy 


表 13 语音 和 类 型 的 组 侣 特征 对 点 击 的 影响 
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以 逻辑 回归 为 例 ， 假 设 数据 的 特征 向 量 为 X=(xj,xz,.…x)， 则 有 ， 


Y=sigmoid(F Ewy <x. >) 
a3) 


其 中 <xi, a RRE, wy lS F abl RE 
ah A 8) A 取 值 的 个 数 。 在 表 1.3 的 广告 点 击 预测 问题 
中 ，w 的 维度 是 2x2=4 (语言 取 值 》 两 种 、 类 : 
影 或 电视 剧 两 种 ) 。 这 种 特征 组 合 看 起 人 
ID 类 型 的 特征 时 ， 问 题 就 出 现 了 。 以 推荐 问题 为 例 ， 
物品 ID 对 点 击 的 影响 ， TSE PMD AAA 
响 。 





























表 1.4 用 户 ID 和 物品 四 对 点 击 的 影响 
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RLS 用 户 ID 和 物品 ID 的 组 合 特征 对 点 击 的 影响 


































































































Hen Hn 用 户 ID=2 || | 有 Ip=m 
物品 ID=1 物品 ID: [| as: 
i b lo 
1 lb h lo 
g 
1 p i lo 
1 b h lo 
lo i lo 







































































































































































Lb b Jb b HI 


若 用 户 的 数量 为 m、 物 品 的 数量 为 n， 那 么 需要 学 习 的 参数 的 规模 
pees 在 互联 网 环境 下 ， 用 户 数量 和 物品 数量 都 可 以 达到 千 万 量 级 ， 
E 法 学 习 mxn 规 模 的 参数 。 在 这 种 情况 下 ， 一 种 行 之 有 效 的 方法 是 
et (k<<m,k<<n) ， 


Y sigmoid ED, <51) 























(1.4) 


地 和 z 分 别 表示 x 和 % 对 应 的 低 维 向 量 。 在 表 1.5 
要 学 习 的 参数 的 规模 变 为 mxk+nx Ceara 

同学 很 快 可 以 看 出 来 ， 这 其 实 等 价 于 和 矩阵 分 解 。 所 以 ， 
一 个 理解 推荐 系统 中 矩阵 分 解 的 思路 。 





其 中 wj = 2 
问题 中 ， 





04 组 合 特征 


场景 描述 


上 一 节 介绍 了 如 何 利用 降 维 方法 来 减少 两 个 高 维特 征 组 合 后 需要 学 
习 的 参数 。 但 是 在 很 多 实际 问题 中 ， 我 们 常常 需要 面 对 多 种 高 维特 征 。 
如 果 简 单 地 两 两 组 合 ， 依 然 容 易 存在 参数 过 多 、 过 拟 合 等 问题 ， 而 且 并 
不 是 所 有 的 特征 组 合 痢 是 有 意义 的 。 因 此 ， 和 需要 一 种 有 效 的 方法 来 帮助 
我 们 找到 应 该 对 哪些 特征 进行 组 合 。 











知识 点 


问题 怎样 有 效 地 找到 组 合 特征 ? 


难度 : doktor te 
分 析 与 解答 


本 节 介绍 一 种 基于 决策 树 的 特征 组 合 寻 找 方法 上 (关于 决策 树 的 详 
细 内 容 可 见 第 3 章 第 3 节 ) 。 以 点 击 预 测 问题 为 例 ， 假 设 原始 输入 特征 包 
含 年 龄 、 性 别 、 用 户 类 型 (试用 期 、 付 费 )、 物 品类 型 护肤 、 食 品 
等 ) 4 个 方面 的 信息 ， 并 且 根 据 原始 输入 和 标签 (点 击 /未 点 击 ) 构造 出 
了 决策 树 ， 如 图 1.2 所 示 。 


每 一 条 从 根 节点 到 叶 节 点 的 路 径 都 可 以 看 成 一 种 特征 组 合 的 
ws. eke. 就 有 以 下 4 种 特征 组 合 的 方式 。 


(1) "年龄 <=35” 且 “性 别 = 女 ”。 

(2) "年龄 <=35” 且 "物品 类 别 = 护肤 ”。 

C3)“ 用户 类 型 = 付费 " 且 “ 物 品类 型 = 食品 ”。 
4)“ 用户 类 型 = 付费 " 且 “ 年 龄 <=40”。 


图 1.2 基于 决策 料 的 特征 组 合 方法 


表 1.6 是 两 个 样本 信息 ， 那么 第 1 个 样本 按照 上 述 4 个 特征 组 合 就 可 
以 编码 为 (1， 1，0，0) ， 因 为 同时 满足 (1) (2) ， 但 不 满足 (3) 
(4) 。 同 理 ， 第 2 个 样本 可 以 编码 为 “0， or) 1，1) ， 因 为 它 同时 满足 
(3) (4)， 但 不 满足 (1) (2) 。 


RLE 两 个 不 同样 本 对 应 的 原始 输入 特征 
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是 pa fx jer [ee 




















国 Be fs five few 


给 定 原始 输入 该 如 何 有 效 地 构造 决策 树 呢 ”可 以 采用 梯度 提升 决策 
树 ， 该 方法 的 思想 是 每 次 都 在 之 前 构建 的 决策 树 的 残 差 上 构建 下 一 棵 决 
策 树 。 对 梯度 提升 决策 树 感 兴趣 的 读者 可 以 参考 第 12 章 的 具体 内 容 ， 也 
可 以 阅读 参考 文献 四 。 




















05 文本 表示 模型 


文本 是 一 类 非常 重要 的 非 结构 化 数据 ， 如 何 表示 文本 数据 一 直 是 机 
器 学 习 领 域 的 一 个 重要 研究 方向 。 


知识 点 


词 袋 模型 (Bag of Words) , TF-IDF (Term Frequency-Inverse 
Document Frequency) ， 主 题 模型 (Topic Model) ， 词 谋 入 模型 ‘Word 
Embedding) 


问题 有 哪些 文本 表示 模型 ? 它们 各 有 什么 优 缺点 ? 









WEE: doktor 
分 析 与 解答 
严词 袋 模型 和 N-gram 模 型 
最 基础 的 文本 表示 模型 是 词 袋 模型 。 顾 名 思 义 ， 就 是 将 每 篇 文章 看 





成 一 袋子 词 ， 并 忽略 每 个 词 出 现 的 顺序 。 有 具体 地 说 ， 就 是 将 整 段 文 
词 为 单位 切 分 开 ， 然 后 每 篇 文章 可 以 表示 成 一 个 长 向 量 ， 向 量 中 的 每 一 
维 代表 一 个 单词 ， 维 对 应 的 权重 则 反映 了 这 个 词 在 原文 章 中 的 重要 
程度 。 常 用 TF-IDF 来 计算 权重 ， 公 式 为 


‘TF-IDF(¢,d)=TF(¢,d)<IDF(0) ， 








(1.5) 


其 中 TF(4,d) 为 单词 :在 文档 g 中 出 现 的 频率 ，IDF(i) 是 逆 文 档 频率 ， 用 来 衡 
量 单词 对 表达 语义 所 起 的 重要 性 ， 表 示 为 


文章 总 数 
IDF(D)=log 包 合 单 词 册 文章 总 数 +1 . 


(1.6) 


一 个 单词 在 非常 多 的 文章 里 面 都 出 现 ， 那 么 它 可 能 
汇 ， 对 于 区 分 某 篇 文章 特殊 语义 的 贡献 较 小 ， 因 此 


直观 的 解释 是 ， 如 
是 一 个 比较 通用 的 i 
对 权重 做 一 定 惩罚 


将 文章 进行 单词 级 别 的 划分 有 时 候 并 不 是 一 种 好 的 做 法 ， 比 如 英文 
中 的 natural language processing (自然 语言 处 理 ) 一 词 ， 如 
language，processing 这 3 个 词 拆 分 开 来 ， 所 表达 的 含义 与 三 个 - 
现时 大 相 径 庭 。 可 以 将 连续 出 现 的 n 个 词 (nsN) 组 成 的 词组 

(N-gram) 也 作为 一 个 单独 的 特征 放 到 向 量 表示 中 去 ， 构 成 N-gram 模 
型 。 另 外 ， 同 一 个 词 可 能 有 多 种 词性 变化 ， 却 具有 相似 的 含义 。 在 实际 
应 用 中 ， 一 般 会 对 单词 进行 词 干 抽取 Word Stemming) 处 理 ， 即 将 不 
同 词性 的 单词 统一 成 司 干 的 形式 。 


里 主题 模型 
主题 模型 用 于 从 文本 库 中 发 现 有 代表 性 的 主题 (得 到 每 个 主题 上 面 


词 的 分 布 特性 ) ， 并 且 能 够 计算 出 每 篇 文章 的 主题 分 布 ， 具 体 细节 参见 
第 6 章 第 5 节 。 


里 词 嵌 入 与 深度 学 习 模型 


词 嵌入 是 一 类 将 词 向 量化 的 模型 的 统称 ， 核 
射 成 低 维 空间 50 一 300 维 ) 上 
Vector) 。 天 维 空间 的 每 一 维 也 可 以 看 作 一 个 隐 含 的 主题 ， 只 不 过 不 像 
主题 模型 中 的 主题 那样 直观 。 


由 于 词 嵌 入 将 每 个 词 映射 成 一 个 K 维 的 向 量 ， 如 果 一 篇 文档 有 N 个 
词 ， 就 可 以 用 一 个 NxK 维 的 矩阵 来 表示 这 篇 文档 ， 但 是 这 样 的 表示 过 于 
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底层 。 在 实际 应 用 中 ， ee ee OEA ARRE 





效果 的 显著 提升 。 而 深度 学 习 模型 正好 为 
我 们 提供 了 一 种 自动 地 进行 特征 工程 的 方式 ， 模 型 中 的 每 隐 层 都 可 以 
认为 对 应 着 不 同 抽象 层次 的 特征 。 从 这 个 角度 来 讲 ， 深 度 学 习 模型 能 
打败 浅 层 模型 也 就 顺理成章 了 。 卷 积 神经 网 络 和 循环 神经 网 络 的 结构 在 
文本 表示 中 取得 了 很 好 的 效果 ， 主 要 是 由 于 它们 能 够 更 好 地 对 文本 进行 
建 模 ， 抽 取出 一 些 高 层 的 语义 特征 。 与 全 连接 的 网 络 结构 相 比 ， 卷 积 神 
经 网 络 和 循环 神经 网 络 一 方面 很 好 地 抓 住 了 文本 的 特性 ， 另 一 方面 又 减 
少 了 网 络 中 待 学 习 的 参数 ， 提 高 了 训练 速度 ， 并 且 降低 了 过 拟 合 的 风 
险 。 





06 Word2Vec 


谷歌 2013 年 提出 的 Word2Vec 是 目前 最 常用 的 词 嵌入 模型 之 一 。 
Word2Vec 实 际 是 一 种 浅 层 的 神经 网 络 模型 ， 它 有 两 种 网 络 结构 ， 分 别 
是 CBOW (Continues Bag of Words) 和 Skip-gram。 


知识 点 
Word2Vec， 隐 和 狄 利克 雷 模型 (LDA) , CBOW, Skip-gram 


问题 Word2Vec 是 如 何 工作 的 ? 它 和 LDA 有 什么 区 别 与 
联系 ? 


难度 : ake ae akc 


分 析 与 解答 







CBOW 的 目标 是 根据 上 下 文 出 现 的 词语 来 预测 
如 图 1.3 (a) 所 示 ; 而 Skip-gram 是 根据 当前 词 来 预 洒 
成 概率 ， 如 图 1.3 (b) 所 示 。 





(a) cBow (b) Skp-oram 
图 13 Word2Vec 的 两 种 网 络 结构 


其 中 w(D 是 当前 所 关注 的 词 ，w(t-2)、w(t-1DJ、w(ttD)、w(t+2) 是 上 
下 文中 出 现 的 词 。 这 里 前 后 滑动 窗口 大 小 均 设 为 2。 


CBOW 和 Skip-gram 都 可 以 表示 成 由 输入 层 npu) 、 映 射 层 
(Projection) 和 输出 层 (Output) 组 成 的 神经 网 络 。 


输入 层 中 的 每 个 词 由 独 热 编码 方式 表示 ， 即 所 有 词 均 表示 成 一 个 N 
维 向 量 ， 其 中 为 词汇 表 中 单词 的 总 数 。 在 向 量 中 ， 每 个 词 都 将 与 之 对 
应 的 维度 置 为 1， 其 余 维度 的 值 均 设 为 0。 


在 映射 层 〈 又 称 隐 含 层 ) 中 ，K 个 隐 含 单元 Hidden Units) 的 取 值 
可 以 由 N 维 输入 向 量 以 及 连接 输入 和 隐 舍 单元 之 间 的 NxK 维 权重 矩阵 计 
算得 到 。 在 CBOW 中 ， 还 需要 将 各 个 输入 词 所 计算 出 的 隐 含 单元 求 和 。 


同 理 ， 输 出 层 向 量 的 值 可 以 通过 隐 含 层 向 量 (K 维 ) ， 以 及 连接 隐 
含 层 和 输出 层 之 间 的 KxN 维 权重 矩阵 计算 得 到 。 输 出 层 也 是 一 个 N 维 向 
量 ， 每 维 与 词汇 表 中 的 一 个 单词 相对 应 。 最 后 ， 对 输出 层 向 量 应 用 
Softmax 激 活 函数 ， 可 以 计算 出 每 个 单词 的 生成 概率 。Softmax 激 活 函数 
的 定义 为 











Pl(y=wh) => 








(17) 


其 中 x 代 表 N 维 的 原始 输出 向 量 ，x 为 在 原始 输出 向 量 中 ， 与 单词 w 所 对 
应 维度 的 取 值 。 


接 下 来 的 任务 就 是 训练 神经 经 网 络 的 权重 ， 使 得 语料库 中 所 有 单词 的 
整体 生成 概率 最 大 化 。 从 输入 层 到 隐 含 层 需要 一 个 维度 为 NxK 的 权重 矩 
阵 ， 从 隐 含 层 到 输出 层 又 需要 一 个 维度 为 KxN 的 权重 和 矩阵， 学习 权重 可 
以 用 反 向 传播 算法 实现 ， 每 次 迭代 时 将 权重 沿 梯度 更 优 的 方向 进行 一 小 
步 更 新 。 但 是 由 于 Softmax 激 活 函数 中 存在 归 一 化 项 的 缘故 ， 推 导出 来 
的 选 代 公 式 需 要 对 词汇 表 中 的 所 有 单词 进行 遍历 ， 使 得 每 次 迭代 过 程 非 
常 缓慢 ， 由 此 产生 了 Hierarchical Softmax 和 Negative Sampling 两 种 改进 
方法 ， 有 兴趣 的 读者 可 以 参考 Word2Vec 的 原 论文 加。 训练 得 到 维度 
CNN CERES Ft 可 以 选择 其 中 一 个 作为 N 个 词 的 K 维 
向 量 表示 。 


谈 到 Word2Vec 与 LDA 的 区 别 和 联系 ， 首 先 ，LDA 是 利用 文档 中 单 

词 的 共 现 关系 来 对 单词 按 主题 育 类 ， 也 可 以 理解 为 对 "文档 -单词 "矩阵 
J 主题 "和 “主题 -单词 "两 个 概率 分 布 。 而 Word2Vec 

矩阵 进行 学 习 ， 其 中 上 下 文 由 周围 的 几 个 单词 

> 的 词 向 量 表示 更 多 地 融入 了 上 下 文 共 现 的 特征 。 也 就 是 
说 ， 如 果 两 个 单词 所 对 应 的 Word2Vec 向 量 相似 度 较 高 ， 那 么 它们 很 可 
能 经 常 在 同样 的 上 下 文中 出 现 。 需 要 说 明 的 是 ， 上 述 分 析 的 是 LDA 与 
Word2Vec 的 不 同 ， 不 应 该 作为 主题 模型 和 词 嵌 入 两 类 方法 的 主要 差 
异 。 主 题 模型 通过 一 定 的 结构 调整 可 以 基于 “上 下 文 - 单 
题 推 理 。 同 样 地 ， 词 嵌入 方法 也 可 以 根据 “文档 -单词 "矩阵 
隐 含 向 量 表 示 。 主 题 模 型 和 词 嵌 入 两 类 方法 最 大 的 不 
身 ， 主 题 模型 是 一 种 基于 概率 图 模型 的 生成 式 模型 ， 其 似 然 
成 若干 条 件 概率 连 乘 的 形式 ， 其 中 包括 需要 推测 的 隐 含 变量 ( 即 主 
题 ) ;而 词 嵌入 模型 一 般 表 达 为 神经 网 络 的 形式 ， 似 然 函 数 定义 在 网 络 
的 输出 之 上 ， 需 要 通过 学 习 网 络 的 权重 以 得 到 单词 的 稠密 向 量 表示 。 




















07 图 像 数 据 不 足 时 的 处 理 方法 





机 器 学 习 中 ， 绝 大 部 分 模型 都 需要 大 量 的 数据 进行 训练 和 学 习 
(包括 有 监督 学 习 和 无 监督 学 习 ) ， 然 而 在 实际 应 用 中 经 常会 遇 到 训练 
数据 不 足 的 问题 。 比 如 图 像 分 类 ， 作 为 计算 机 视觉 最 基本 的 任务 之 一 ， 
其 目标 是 将 每 幅 图 像 划分 到 指定 类 别 集合 中 的 一 个 或 多 个 类 别 中 。 当 训 
练 一 个 图 像 分 类 模型 时 ， 如 果 训 练 样本 比较 少 ， 该 如 何 处 理 呢 ? 








知识 点 


迁移 学 习 (Transfer Learning) ， 生 成 对 抗 网 络 ， 图 像 处 理 ， 上 采 
样 技术 ， 数 据 扩充 


问题 在 图 像 分 类 任务 中 ， 训 练 数据 不 足 会 带 来 什么 问 
题 ? 如 何 缓解 数据 量 不 足 带 来 的 问题 ? 


难度 : deeree re 


分 析 与 解答 






一 般 来 源 于 两 个 方面 

得 中 (包括 构造 、 
REI 原 

种 情况 下 要 想 保证 模型 的 效果 ， 就 需要 更 多 先 验 信息 。 
A 以 作用 在 模型 上 ， 例 如 让 模型 采用 特定 的 内 在 结构 、 条 件 假 

设 或 添加 其 他 一 些 约束 条 件 ， 先 验 信息 也 可 以 直接 施加 在 数据 集 上 ， 即 





个 模型 所 能 提供 的 信 是 训练 数据 中 蕴 
是 在 模 推理 等 ) ， 
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cl 
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根据 特定 的 先 验 假设 去 调整 、 变 换 或 扩展 训练 数据 ， 让 其 展现 出 更 多 


的 、 更 有 用 的 信息 ， 以 利于 后 续 模型 的 训练 





具体 到 图 像 分 类 任务 上 ， 训 练 数据 不 足 带 来 的 问题 主要 表现 在 
合 方面 ， 即 模型 在 训练 样本 上 的 效果 可 能 不 错 ， 但 在 测试 集 上 的 泛 化 





效 
HUME. 根据 上 述 讨论 ， 对 应 的 处 理 方法 大 致 也 可 以 分 两 类 ， 一 是 基于 





以 合 风险 的 措施 ， 包 括 简化 模型 《如 将 
性 模型 》、 添 加 约束 项 以 缩小 假设 空间 (如 LUL2 
、Dropout 超 参数 等 ， -是 基于 数据 的 方法 ， EE 
EART 充 《Data Augmentat 
定 信息 的 前 提 下 ， 对 原始 数据 进行 适当 变 : k 
具体 到 图 像 分 类 任务 中 ， 在 保持 图 像 类 别 不 变 的 前 提 下 ， 可 以 对 训练 集 
中 的 每 幅 图 像 进行 以 下 变换 。 


(1) 一 定 程度 内 的 随机 旋转 、 平 移 、 缩 放 、 裁 前 、 填 充 、 左 右 翻 
转 等 ， 这 些 变换 对 应 着 同一 个 目标 在 不 同 角度 的 观察 结果 。 


(2) 对 图 像 中 的 像素 添加 噪声 扰动 ， 比 如 椒盐 噪声 、 高 斯 白 噪声 








(3) 颜色 变换 。 例 如 ， 在 图 像 的 RGB 颜色 空间 上 进行 主 成 分 分 
析 ， 得 到 3 个 主 成 分 的 特征 向 量 p,pz,p3 及 其 对 应 的 特征 值 ,hzh3， 然 后 
在 每 个 像素 的 RGB 值 上 添加 增 量 [pppzpa]*[auhnazhz,a3)a]， 其 中 
ou,a2,a3 是 均值 为 0、 方 差 较 小 的 高 斯 分 布 随机 数 。 

(4) 改变 图 像 的 亮度 、 清 晰 度 、 对 比 度 、 锐 度 等 。 


图 1.4 展 示 了 一 些 图 像 扩充 的 具体 样 例 。 





图 1.4 FIRM FEF 
y 先 对 图 像 进行 特征 提 





加 进行 








LEPENE 








法 。 
一 些 新 样 





ae 法 ， 使 用 生成 模型 也 可 以 合 
的 生成 式 对 抗 网 络 模型 。 


， 借 助 已 有 的 其 他 模型 或 数据 来 
。 例 如 ， 对 于 大 部 分 图 像 分 类 任务 
ii 


ai 用 一 Mie vate 








第 2 章 “模型 评估 






类 、 排 序 、 回 归 、 序 列 预测 等 不 型 的 机 习 

也 有 所 不 同 。 知 道 每 种 评估 指标 的 精确 定义 、 有 针 
合适 的 评估 指标 、 根 据 评估 指标 的 反馈 进行 模型 调整 ， 这 些 
都 是 机 器 学 习 在 模型 评估 阶段 的 关键 问题 ， 也 是 一 名 合格 的 算法 工程 师 
应 当 具 备 的 基本 功 。 


01 评估 指标 的 局 限 性 


在 模型 评估 过 程 中 ， 分 类 问题 、 排 序 问题 、 回 归 问题 往往 需要 使 用 
不 同 的 指标 进行 评估 。 在 诸多 的 评估 指标 中 ， 大 部 分 指标 只 能 片面 地 反 
映 模 型 的 一 部 分 性 能 。 如 果 不 能 合理 地 运用 评估 指标 ， 不 仅 不 能 发 现 模 
型 本 身 的 问题 ， 而 且 会 得 出 错误 的 结论 。 下 面 以 Hulu 的 业务 为 背景 ， 假 
ag 看 看 大 家 能 否 触 类 旁 通 ， 发 现 模型 评估 指标 的 局 
限 性 。 









知识 点 


准确 率 (Accuracy) ， 精 确 率 (Precision) , HE (Recall) ， 均 
方 根 误差 (Root Mean Square Error, RMSE) 


问题 1 准确 率 的 局 限 性 。 


难度 : deta sey 


Hulu 的 奢侈 品 广告 主 们 希望 把 广告 定向 投放 给 奢侈 品 用 户 。Hulu 通 
过 第 三 方 的 数据 管理 平台 (Data Management Platform，DMP) 拿 
一 部 分 奢侈 品 用 户 的 数据 ， 并 以 此 为 训练 集 和 测试 集 ， 训 练 
品 用 户 的 分 类 模型 。 该 模型 的 分 类 准确 率 超过 了 95%， 但 在 实际 广告 投 
放 过 程 中 ， 该 模型 还 是 把 大 部 分 广告 投 给 了 非 奢侈 品 用 户 ， 这 可 能 是 什 
么 原因 造成 的 ? 





分 析 与 解答 


在 解答 该 问题 之 前 ， 我 们 先 回顾 一 下 分 类 准确 率 的 定义 。 准 确 率 是 

指 分 类 正确 的 样本 占 总 样本 个 数 的 比例 ， 即 
Accuracy = "2". 
Prod + 


(2.1) 
其 中 morec 为 被 正确 分 类 的 样本 个 数 ，niou/ 为 总 样本 的 个 数 。 


准确 率 是 分 类 问题 中 最 简单 也 是 最 直观 的 评价 指标 ， 但 存在 明显 的 
缺陷 。 比 如 ， 当 负 样 本 占 99% 时 ， 分 类 器 把 所 有 样本 都 预测 为 负 样 本 也 
o 不 同类 别 的 样本 比例 非常 不 均衡 时 ， 

占 比 大 的 类 别 往往 成 为 影响 准确 率 的 最 主要 因素 。 


明确 了 这 一 点 ， 这 个 问题 也 就 迎刃而解 了 。 奢侈 品 用 户 只 占 
Hulu 全 体 用 户 的 一 小 部 分 ， 虽 多 SU HE A 但 是 不 代表 
对 奢侈 品 用 户 的 分 类 准确 率 也 很 高 。 在 线 上 投放 过 程 中 ， 我 们 只 会 对 模 
型 判定 的 “奢侈 品 用 户 " 进 行 投放 ， 因 此 ， 对 “奢侈 品 用 户 "判定 的 准确 率 
不 够 高 的 问题 就 被 放大 了 。 为 了 解决 这 个 问题 ， 可 以 使 用 更 为 有 效 的 平 
ene 《每 个 类 别 下 的 样本 准确 率 的 算术 平均 ) 作为 模型 评估 的 指 
Fo 





















事实 上 ， 这 是 一 道 比较 开放 的 问题 ， 面 试 者 可 以 根据 遇 到 的 问题 一 
步 步 地 排查 原因 。 案 其 实 也 不 限于 : 
在 模型 过 拟 合 或 欠 拟 合 上 5 
R FVP i. 上 测试 的 样本 分 布 存在 差异 问题 ， 但 评估 指标 的 
选择 是 最 容易 被 发 现 ， 也 是 最 可 能 影响 评估 结果 的 因素 。 





A 






问题 2 精确 率 与 召回 率 的 权衡 。 


难度 : deters oe 


Hulu 提 供 视频 的 模糊 搜索 功能 ， 搜 索 排序 模型 返回 的 Top 5 的 精确 
率 非 常 高 ， 但 在 实际 使 用 过 程 中 ， 用 户 还 是 经 常 找 不 到 想 要 的 视频 ， 特 





别 是 一 些 比较 冷门 的 剧 集 ， 这 可 能 是 哪个 环节 出 了 问题 呢 ? 


分 析 与 解答 


要 回答 这 个 问题 ， 首 先 要 明确 两 个 概念 ， 精 确 率 和 召回 率 。 精 确 率 
是 指 分 类 正确 的 正 样本 个 数 占 分 类 器 判定 为 正 样本 的 样本 个 数 的 比例 。 
召回 率 是 指 分 类 正确 的 正 样本 个 数 占 真正 的 正 样本 个 数 的 比例 。 


在 排序 问题 中 ， 通 常 没有 一 个 确定 的 阔 值 把 得 到 的 结果 直接 判定 为 
正 样本 或 负 样本 ， 而 是 采用 Top N 返 回 结果 的 Precision 值 和 Recall 值 来 衡 
量 排序 模型 的 性 能 ， 即 认为 模型 返回 的 Top N 的 结果 就 是 模型 判定 的 正 
样本 ， 然 后 计算 前 N 个 位 置 上 的 准确 率 Precision@N 和 前 N 个 位 置 上 的 召 
回 率 Recall@N。 


Precision 值 和 Recall 值 是 既 矛 盾 又 统一 的 两 个 指标 ， 为 了 提高 
Precision 值 ， 分 类 器 需要 尽量 在 “更 有 把 握 * 时 才 把 样本 预测 为 正 样本 ， 
Een ER ARANT 保守 而 漏 掉 很 多 “没有 把 握 * 的 正 样本 ， 导 致 
Recall 值 降低 。 


回 到 问题 中 来 ， 模 型 返回 的 Precision@5 的 结果 非常 好 ， 也 就 是 说 排 
序 模型 Top 5 的 返回 值 的 质量 是 很 高 的 。 但 在 实际 应 用 过 程 中 ， 用 户 为 
门 的 视频 ， 往 往 会 寻找 排 在 较 靠 后 位 置 的 结果 ， 甚 至 翻 页 去 
。 但 根据 题目 描述 ， 用 户 经 常 找 不 到 想 要 的 视频 ， 这 说 明 
模型 没有 把 相关 的 视频 都 找 出 来 呈现 给 用 户 。 显 然 ， 问 题 出 在 召回 率 
上 。 如 果 相 关 结 果 有 100 个 ， 即使 Precision@D5 达 到 了 100%，Recall@5 也 
仅仅 是 596。 在 模型 评估 时 ， 我 们 是 否 应 该 同时 关注 Precision 值 和 Recall 
值 ? 进一步 否 应 该 选取 不 同 的 Top N 的 结果 进行 观察 呢 ? 是 否 
应 该 选取 更 高 阶 的 评估 指标 来 更 全 面 地 反映 模型 在 Precision 值 和 Recall 
值 两 方面 的 表现 ? 


答案 都 是 肯定 的 ， 为 了 综合 评估 一 个 排序 模型 的 好 坏 ， 不 仅 要 看 模 
型 在 不 同 Top N 下 的 Precision@N 和 Recall@N， 而 且 最 好 绘制 出 模型 的 P- 
R (Precision-Recall) 曲线 。 这 里 简单 介绍 一 下 P-R 曲 线 的 绘制 方法 。 


P-R 曲 线 的 模 轴 是 召回 率 ， 纵 轴 是 精确 率 。 对 于 一 个 排序 模型 来 
说 ， 其 P-R 曲 线 上 的 一 个 点 代表 着 ， 在 某 一 阔 值 下 ， 模 型 将 大 于 该 阔 值 































的 结果 判定 为 正 样本 ， 小 
对 应 的 召回 率 和 精确 率 。 整 和 
成 的 。 图 2.1 是 P-R 曲 线 样 例 
A 原点 附近 4 








1 

















为 0.9， 模 型 B 的 精 

x 这 说 的 样 正 样本 ， 而 模型 
A 即使 得 分 最 高 的 几 个 样本 也 存在 预测 错误 的 情况 。 并 且 ， 随 着 召回 率 
的 增加 ， 精 确 率 整体 呈 下 降 趋势 。 但 是 ， 当 召回 率 为 1 时 ， 模 型 A 的 精确 








率 反而 超过 了 模 这 充分 说 明 ， 只 用 某 个 . pera PA 
地 衡量 模型 的 性 能 ， 只 有 通过 P-R 曲 线 的 整体 表现 ， 才 能 旬 
对 模型 进行 更 为 全 面 的 评估 。 


除 此 之 外 ，F1 score 和 ROC 曲 线 也 能 综合 地 反映 一 个 排序 模型 的 性 
能 。F1 score 是 精准 率 和 召回 率 的 调和 平均 值 ， 它 定义 为 


py = 2 precisionx recall 
precision+recall ` 


(22) 


ROC 曲 线 会 在 后 面 的 小 节 中 单独 讨论 ， 这 里 不 再 袭 述 。 


问题 3 平方 根 误差 的 “意外 ”。 


难度 : dete de see 


Hulu 作 为 一 家 流 媒体 公司 ， 拥 有 众多 的 美剧 资源 ， 预 测 每 部 美剧 的 
流量 趋势 对 于 广告 投放 、 用 户 增长 都 非常 重要 。 我 们 希望 构建 一 个 回归 
模型 来 预测 某 部 美剧 的 流量 趋势 ， 但 用 哪 种 回归 模型 ， 得 到 的 
RMSE 指 标 都 非常 高 。 然 而 事实 是 ， 模 型 在 95% 的 时 间 区 间 内 的 预测 误 
差 都 小 于 1%， 取 得 了 相当 不 错 的 预测 结果 。 那 么 ， 造 成 RMSE 指 标 居 高 
不 下 的 最 可 能 的 原因 是 什么 ? 








分 析 与 解答 


RMSE 经 常 被 用 来 衡量 回归 模型 的 好 坏 ， 但 按照 题目 的 叙述 ， 
RMSE 这 个 指标 却 失效 了 。 先 看 一 下 RMSE 的 计算 公式 为 





(2.3) 
其 中 ,jy 是 第 个 样本 点 的 真实 值 ， 亲 是 第 i 个 样本 点 的 预测 值 ，n 是 样本 
点 的 个 数 。 


一 般 情 况 下 ，RMSE 能 够 很 好 地 反映 回归 模型 预测 值 与 真实 值 的 偏 
离 程度 。 但 在 实际 问题 中 ， 如 果 存 在 个 别 偏离 程度 非常 大 的 离 群 4 
(Outlier) 时 ， 即 使 离 群 点 数量 非常 少 ， 也 会 让 RMSE 指 标 变 得 很 


回 到 问题 中 来 ， 模 型 在 959% 的 时 间 区 间 内 的 预 沈 都 小 于 1%， 这 
说 明 ， 在 大 部 分 时 间 区 间 内 ， 模 型 的 预测 效果 都 是 Fi. H 















RMSE 却 一 直 很 差 ， 这 很 可 能 是 由 于 在 其 他 的 5% 时 间 区 间 内 存在 非常 严 
重 的 离 群 点 。 事 实 上 ， 在 流量 预 估 这 个 问题 中 ， 噪 声 点 确实 是 很 容易 产 
生 的 ， 比 如 流量 特别 小 的 美剧 、 We aide ds hn 甚至 
一 些 相关 社交 媒体 突 发 事件 带 来 的 流量 ， 都 可 能 会 造成 离 群 点 
















将 离 群 点 产生 的 机 制 建 模 进去 

话题 ， F 。 第 三 ， 可 以 找 一 个 更 
评估 该 模型 。 if 其 实 是 在 在 比 RMSE 的 鲁 
性 更 好 的 指标 ， 比 如 平均 绝对 百分比 误差 (Mean Absolute Percent 
Error, MAPE) ， 它 定义 为 


MAPE 





(2.4) 


相 比 RMSE，MAPE 相 当 于 把 每 个 点 的 误差 进行 了 归 一 化 ， 降 低 了 个 别 
离 群 点 带 来 的 绝对 误差 的 影响 


个 假想 的 Hulu 应 用 场景 和 对 应 的 问题 ， 说 明了 选择 合 
适 的 评估 指标 的 重要 性 。 每 个 评估 指标 都 有 其 价值 ， 但 如 果 只 从 单一 的 
评估 指标 出 发 去 评估 模型 ， 往 往 会 得 出 片面 甚至 错误 的 结论 ， 只 有 通过 
一 组 互补 的 指标 去 评估 模型 ， 才 能 更 好 地 发 现 并 解决 模型 存在 的 问题 ， 
从 而 更 好 地 解决 实际 业务 场景 中 遇 到 的 问题 。 





02 ROC 曲 线 


- 值 分 类 器 (Binary Classifier) 是 
ene PRAA add -人 分 类 器 的 
-R 曲 线 


F1 score 


EN AIRS Hh. 评估 二 类 器 最 重要 | 
TAE 下 ROC 曲 线 的 给 制 方法 和 特点 。 









学 习 领 域 中 最 常见 也 是 应 用 
比如 precision、recall、 






知识 点 
ROC 曲 线 ， 曲 线 下 的 面积 (Aera Under Curve, AUC) ，P-R 曲 线 


问题 1 什么 是 ROC 曲 线 ? 


难度 : deers te 
分 析 与 解答 


ROC 曲 线 是 Receiver Operating Characteristic Curve 的 简称 ， 中 文 名 
为 " 受 试 者 工作 特征 曲线 "。ROC 曲 线 源 于 军事 领域 ， 而 后 在 医学 领域 应 
HEM, “s 者 工作 特征 曲线 “ 这 一 名 称 也 正 是 来 自 于 医 


ROC 曲 线 的 横 坐 标 为 假 阳性 率 (False Positive Rate, FPR) ; #4% 
标 为 真 阳性 率 (True Positive Rate, TPR) 。FPR 和 TPR 的 计算 方法 分 别 
为 









(2.5) 


(2.6) 


上 式 中 ，P 是 真实 的 正 样本 的 数量 ，N 是 真实 的 负 样本 的 数量 ，TP 是 P 个 
正 样本 中 被 分 类 器 预测 为 正 样本 的 个 数 ，FP 是 N 个 负 样 本 中 被 分 类 器 预 
测 为 正 样本 的 个 数 。 


只 看 定义 确实 有 点 绕 ， 为 了 更 直观 地 说 明 这 个 问题 ， 我 们 举 一 

院 诊断 病人 的 例子 。 假 设 有 10 位 疑似 癌症 其 中 有 3 位 很 不 幸 确实 
ART ROE (P=3) ， 另 外 7 位 不 是 癌症 eee 
患者 做 了 诊断 ， 诊断 出 3 位 癌症 3 
(TP=2) 。 那 么 真 阳性 /3 0 SEIT OG, 有 
一 位 很 不 幸 被 误诊 为 痪 者 ， 那 么 假 阳性 率 
FPR=FPIN=1/7. X} 该 医院 "这 个 分 类 器 来 说 ， 这 组 分 类 结果 就 对 应 
ROC 曲 线 上 的 一 个 点 (1/7，2/3) 。 










(N= 
中 有 2 位 确实 

















问题 2 如 何 绘制 ROC 曲 线 ? 


难度 : ederre 


分 析 与 解答 





事实 上 ，ROC 曲 线 是 通过 不 断 移动 分 类 器 的 “截断 点 "来 生成 曲线 上 
的 一 组 关键 点 的 ， 通 过 下 面 的 例子 进一步 来 解释 “截断 点 "的 


在 二 值 分 类 问题 中 ， 模 型 的 输出 一 般 痢 是 预测 样本 为 正 例 的 率 。 
假设 测试 集中 有 20 个 样本 ， 表 2.1 是 模型 的 输出 结果 。 样 本 按照 预测 概 













值 ， : 例 ， 小 TABLA RIREAIU 
iano 比如 ， 指定 财 值 为 3 .9， Kash 个 样本 会 被 预测 为 
正 例 ， 其 他 全 部 都 是 负 例 。 上 面 所 说 的 “截断 点 " 指 的 就 是 区 分 正 负 预 测 
结果 的 阔 值 。 


通过 动态 地 调整 截断 点 ， 从 最 高 的 得 分 开始 〈 实 际 上 是 从 正 无 穷 开 

ROC 曲 线 的 零点 ) ， 逐 渐 调 整 到 最 低 得 分 ， 个 截断 点 都 
个 FPR 和 TPR， 在 ROC 图 上 绘制 出 每 个 截断 点 对 应 ， 
就 得 到 最 终 的 ROC 曲 线 。 


表 2.1 二 值 分 类 模型 的 输出 结果 样 例 












始 ， 
























































就 本 例 来 说 当 截 断 点 选择 为 正 无 穷 时 ， 模 型 把 全 部 样本 预测 为 负 
6 为 0，FPR 和 TPR 也 都 为 0， i 





。 依 次 调整 截 画 
ee 如 图 2.2 所 示 。 
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图 22 ROC 曲线 


其 实 ,还 有 一 种 更 直观 地 绘制 ROC 曲 线 的 方法 。 首 先 ， 根 据 样本 标 
签 统计 出 正 负 样本 的 数量 ， 假 设 正 样本 数量 为 P， 负 样本 数量 为 N; Be 
下 来 ， 把 模 轴 的 刻度 间隔 设置 为 IN， 纵 轴 的 刻度 间隔 设置 为 1P;， 再 根 
据 模型 输出 的 预测 概率 对 样本 进行 排序 〔 从 高 到 低 ) ; 依次 遍历 样本 ， 
同时 从 零点 开始 绘制 ROC 曲 线 ， 每 遇 到 一 个 正 样本 就 沿 纵 轴 方 向 绘制 一 
个 刻度 间隔 的 曲线 ， 每 遇 到 一 个 负 样 本 就 沿 横 轴 方 向 绘制 一 个 刻度 间隔 
的 曲线 ， 直 到 遍历 完 所 有 样本 ， 曲 线 最 终 停 在 〔11) 这 个 点 ， 整 个 
ROC 曲 线 绘制 完成 。 


问题 3 如 何 计算 AUC? 


WERE: detested te 


分 析 与 解答 


PROCR ARABAN, AUCA 该 值 能 够 量化 地 反 
衡量 P 





话 ， 只 要 把 模型 预测 的 
类 器 ) ， 所 以 AUC 的 取 值 一 般 在 0.5 一 1 之 间 。 AUCE, 说 明 分 类 器 越 
可 能 把 真正 的 正 样本 排 在 前 面 ， 分 类 性 能 越 好 。 


问题 4 ROC 曲 线 相 比 P-R 曲 线 有 什么 特点 ? 


难度 : ekekrt yr 


分 析 与 解答 


本 章 第 一 小 节 曾 介绍 过 同样 被 经 常用 来 评估 分 类 和 排序 模型 的 P-R 





举例 来 说 ， 图 2.3 是 ROC 曲 线 和 P-R 曲 线 的 对 比 图 ， 其 中 图 2.3 Ca) 
和 图 2.3(c) 是 ROC 曲 线 ， 图 2.3 (b) 和 图 2.3 (d) 是 P-R 曲 线 ， 图 
2.3 Co) 和 图 2.3 Cd) 则 是 将 测试 集中 的 负 样 本 数量 增加 10 倍 后 的 曲线 
图 。 
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图 2.3 ROC 曲 线 和 p-R 击 线 的 对 比 


可 以 看 出 ，P-R 曲 线 发 生 了 明显 的 变化 ， 而 ROC 曲 线形 状 基本 不 
变 。 这 个 特点 让 ROC 曲 线 能 够 尽量 降低 不 试 集 带 来 的 干扰 ， 更 加 客 

观 地 衡量 模型 本 身 的 性 能 实际 Me? 在 很 多 实际 问题 中 ， 

正 负 样本 数量 往往 很 不 均 经 常 涉及 转化 率 模 
型 ， 正 样本 的 数量 往往 是 负 样 本 数量 的 11000 甚 至 1110000。 若 选择 不 同 
的 测试 集 ，P-R 曲 线 的 变化 就 会 非常 大 ， 而 ROC 曲 线 则 能 够 更 加 稳定 地 
反映 模型 本 身 的 好 坏 。 所 以 ，ROC 曲 线 的 适用 场景 更 多 ， 被 广泛 用 于 排 
序 、 推 荐 、 广 告 等 领域 。 但 需要 注意 的 是 ， 选 择 P-R 曲 线 还 是 ROC 曲 线 
是 因 问题 而 异 的 ， 如 果 研 究 者 希望 更 多 地 看 到 模型 在 特定 数据 集 上 
的 表现 ，P-R 曲 线 则 能 够 更 直观 地 反映 其 性 能 。 










ROCHA HT HI 


ROC 曲 线 最 早 是 运用 在 军事 上 的 ， 后 来 逐渐 运用 到 
期 被 引入 机 器 学 习 领 域 。 相 传 在 第 二 次 世界 大 战 期 间 ， 重 


域 ， 间 于 20 世 纪 80 年 代 后 
兵 的 任务 之 一 就 是 死 死地 困 








住 雷达 显示器 ， 观 察 是 否 有 政 机 来 缆 。 理 论 上 讲 ， 只 要 有 政 机 来 缆 ， 雷 达 屏 幕 上 就 会 出 
现 相应 的 信号 。 但 是 实际 上 ， 如 果 飞 鸟 出 现在 雷达 扫描 区 域 时 ， 雷 达 屏幕 上 有 时 也 会 出 
现 信号 。 这 种 情况 令 雷 达 兵 烦恼 不 已 ， 如 果 过 于 谨慎 ， 凡 是 有 信号 就 确定 为 敌 机 来 缆 ， 
显然 会 增加 误 报 风险 ， 如 果 过 于 大 胆 ， 凡 是 信号 都 认为 是 飞鸟 ， 又 会 增加 泌 报 的 风险 。 
每 个 雷达 兵 都 饮 尽 所 能 地 研究 飞鸟 信号 和 飞机 信号 之 间 的 区 别 ， 以 合 增 加 预报 的 准确 

性 。 但 问题 在 于 ， 每 个 雷达 兵 都 有 自己 的 判别 标准 ， 有 的 雷达 兵 比较 谨慎， 容易 出 现 误 
报 ， 有 的 雷达 兵 则 比较 胆 大 ， 容 易 出 现 泥 报 。 


为 了 研究 每 个 雷达 兵 预 报 的 准确 性 ， 雷 达 兵 的 管理 者 汇总 了 所 有 雷达 兵 的 预报 特 
点 ， 特 别 是 他 们 汤 报 和 误 报 的 概率 ， 并 将 这 些 概率 画 到 一 个 二 维 华 标 系 里 。 这 个 二 维 学 
标的 纵 坐 标 为 敏感 性 〔 真 阳性 率 )》 ， 即 在 所 有 敌 机 来 缆 的 事件 中 ， 每 个 雷达 岳 准 确 预报 
的 概率 。 而 村 坐标 则 为 1- 特 异性 〔 假 阳性 率 ) ， 表 示 在 所 有 非 敌 机 来 歼 信 号 中 ， 雷 达 兵 预 
报错 误 的 梳 率 。 由 于 每 个 雷达 兵 的 预报 标准 不 同 ， 且 得 到 的 敏感 性 和 特异 性 的 组 合 也 不 
同 。 将 这 些 雷达 兵 的 预报 性 能 进行 汇总 后 ， 雷 达 兵 管理 员 发 现 他 们 刚好 在 一 条 曲线 上 ， 
这 条 曲线 就 是 后 来 被 广泛 应 用 在 医疗 和 机 器 学 习 领 域 的 ROC 曲 线 。 











03 余弦 距离 的 应 用 


场景 描述 


本 章 的 主题 是 模型 评估 ， 但 其 实在 模型 训练 过 程 中 ， 我 们 也 在 不 断 
See enemy 如 何 评估 样本 距离 也 是 定义 优化 目标 和 训练 方 
法 的 基础 。 


在 机 器 学 习 问题 中 ， 通 常 将 特征 表示 为 向 量 的 形式 ， 所 以 在 分 析 两 
个 特征 向 量 之 间 的 相似 性 时 ， 常 使 用 余弦 相似 度 来 表示 。 余 弦 相 似 度 的 
取 值 范围 是 [-1.1]， 相 同 的 两 个 向 量 之 间 的 相似 度 为 1。 如 果 希 望 得 到 类 
似 于 距离 的 表示 ， 将 1 减 去 余弦 相似 度 即 为 余弦 距离 。 因 此 ， 余 弦 距 离 
的 取 值 范围 为 [0,2]， 相 同 的 两 个 向 量 余弦 距离 为 0。 





知识 点 
余弦 相似 度 ， 余 弦 距 离 ， 欧 氏 距离 ， 距 离 的 定义 


问题 1 结合 你 的 学 习 和 研究 经 历 ， 探 讨 为 什么 在 一 些 场 
景 中 要 使 用 余弦 相似 度 而 不 是 欧 氏 距离 ? 


难度 : tekede see 


分 析 与 解答 






对 于 两 个 向 量 A 和 B， 其 余弦 相似 度 定义 为 ct 小 本 一 
两 个 向 量 夹 角 的 余弦 ， 关 注 的 是 向 量 之 间 的 角度 关系 ， 













对 其 取 值 范围 是 [1,1]。 当 一 对 文本 相似 度 的 长 度 差距 很 大 、 
但 内 容 相近 时 ， 如 果 使 用 词 频 加 量 作为 : 它们 在 特征 空间 中 的 
的 欧 氏 距离 通常 很 大 ; 而 如 果 使 用 余弦 相似 度 和 它们 之 间 的 夹 角 可 





能 很 小 ， 因 而 相似 度 高 。 此 外 ， 在 文本 、 图 像 、 视 频 等 领域 ， 研 究 的 对 
象 的 特征 维度 往往 很 高 ， 余 弦 相 似 度 在 高 维 情况 下 依然 保持 “相同 时 为 
1， 正 交 时 为 0， 相 反 时 为 -1” 的 性 质 ， 而 欧 氏 距离 的 数值 则 受 维度 的 影 
响 ， 范 围 不 固定 ， 并 且 含 义 也 比较 模糊 。 


在 一 些 场景 ， 例 如 Word2Vec 中 ， 其 向 量 的 模 长 是 经 过 归 一 化 的 ， 
此 时 欧 氏 距离 与 余弦 距离 有 着 单调 的 关系 ， 即 


|| A-Bll,= V2(1 -cos(4,8)), 
(2.7) 


其 中 || A-B hERKREN, cos(A BERRIE, (1-cos(A,B)) 2a 
余弦 距离 。 在 此 场景 下 ， 如 果 选 择 距离 最 小 (相似 度 最 大 ) 的 近邻 ， 那 
么 使 用 余弦 相似 度 和 欧 氏 距离 的 结果 是 相同 的 。 


总 体 来 说 ， 欧 氏 距离 体现 数值 上 的 绝对 而 余弦 距离 体现 方向 
上 的 相对 差异 。 例 如 ， 统 计 两 部 剧 的 用 户 观 ; 用 户 A 的 观看 向 量 
为 (0,1)， 用 户 B 为 (1,0); 此 时 二 者 的 余弦 距离 很 大 ， 而 欧 氏 距 离 很 小 ; 
我 们 分 析 两 个 用 户 对 于 不 同 视频 的 偏好 ， 更 关注 相对 差异 ， 显 然 应 当 使 
用 余弦 距离 。 而 当 我 们 分 析 用 户 活跃 度 ， 以 登陆 次 数 (单位 ， 次 ) 和 平均 
观看 时 长 (单位 ， 分 钟 ) 作 为 特征 时 ， 余 弦 距 离 会 认为 (1,10)、(10,100) 丙 
个 用 户 距离 很 近 ; 但 两 个 用 户 活跃 度 是 有 着 极 大 差异 的 ， 此 时 我 
们 更 关注 数值 绝对 差异 ， 应 当 使 用 欧 氏 距离 。 


特定 的 度量 方法 适用 于 什么 样 的 问题 ， 需 要 在 学 习 和 研究 
和 思考 ， 这 样 不 仅仅 对 面试 有 帮助 ， 在 遇 到 新 的 问题 时 也 可 以 
用 。 




























问题 2 余弦 距离 是 否 是 一 个 严格 定义 的 距离 ? 


难度 : deker 


分 析 与 解答 


该 题 主要 考察 面试 者 对 距离 的 定义 的 理解 ， 以 及 简单 的 反 证 和 推 
导 。 首 先 看 距离 的 定义 : 在 一 个 集合 中 ， 如 果 每 一 对 元 素 均 可 唯一 确定 
一 个 实数 ， 使 和 距离 公理 (正定 性 ， 对 称 性 ， 三 角 不 等 式 ) 成 立 ， 
则 该 实数 可 称 为 这 对 元 素 之 间 的 距离 。 


余弦 距离 满足 正定 性 和 对 称 性 ， 但 是 不 满足 三 角 不 等 式 ， 因 此 它 并 
不 是 严格 定义 的 距离 。 具 体 来 说 ， 对 于 向 量 A 和 B， 三 条 距离 公理 的 证 
明 过 程 如 下 。 





。 正定 性 
RRR, A 


[Alls Ble AB 


dist(4,B)=1-cos0= 
EI 


(2.8) 


yeah -AB > 0， 因 此 有 dist(4, B) > MERZ. KI, 


dist(4, B)=0 <= || A ||| Bl.= AB > A=B 






(29) 
因此 余弦 距离 满足 正定 性 。 
o 对 称 性 
根据 余 芯 距离 的 定义 ， 有 
sinc) LAMB -48 LL A -4 
All B WS lal Ale 
= dist, 4) 


(2.10) 


因此 余弦 距离 满足 对 称 性 。 


。 三 角 不 等 式 
该 性 质 并 不 成 立 ， 下 面 给 出 一 个 反例 。 给 定 A=(1,0)，B=(1,1)，C= 
(0.D)， 则 有 


dist(A,B)=1 
(2.11) 
dist(B,C) =1 ea 
(2.12) 
dist(A,C)=1 , 
(2.13) 
因此 有 
dist(4, B)+ dist(B,C) = 2- V2 < I = dist(4,C). 
(2.14) 


假如 面试 时 候 紧张 ， 一 时 想不到 反例 ， 该 怎么 办 呢 ? 此 时 可 以 思考 
余弦 距离 和 欧 氏 距离 的 关系 。 从 问题 中， 我 们 知道 单位 圆 上 欧 氏 距离 
和 余弦 距离 满足 


14-8 ll V20- cos(4,B)) = ./2dist(4,B), 





(2.15) 
即 有 如 下 关系 


di 局 = 二 4 中 on 


(2.16) 


显然 在 单位 圆 上 ， 余 弦 距离 和 欧 氏 距离 的 范围 都 是 [0.2]。 我 们 已 知 欧 氏 
距离 是 一 个 合法 的 距离 ， 而 余弦 距离 与 欢 氏 距 离 有 二 次 关系 ， 自 然 不 满 
足 三 角 不 等 式 。 有 具体 来 说 ， 可 以 假设 4 与 B、B 与 C 非 常 近 ， 其 欧 氏 距离 
为 极 小 量 w， 此 时 A、B、C 虽 然 在 圆 踊 上 ， 但 近似 在 一 条 直线 上 ， 所 以 A 
与 C 的 欧 氏 距离 接近 于 2u。 因 此 ，A 与 B、B 与 C 的 余弦 距离 为 2/2;，A 与 C 
的 余弦 距离 接近 于 2u2， 大 于 4 与 B、B 与 C 的 余弦 距离 之 和 。 


面试 者 在 碰 到 这 类 基础 证 明 类 的 问题 时 ， 往 往 会 遇 到 
如 对 面试 官 考察 的 重点 “距离 "的 定义 就 不 一 定 清晰 地 记得 。 时 
就 需要 跟 面试 官 多 在 距离 的 定义 上 达成 一 臻 《要 知道 ， mit 
的 不 仅 是 知识 的 掌握 程度 ， EEEE Heels EJI) 。 












RAER, B, nte 
和 对 称 性 的 证 明 过 程 中 ， 只 erat 足 " 是 
的 ， 应 该 给 出 一 些 推导 。 最 后 ， 三 角 不 等 式 的 证 明 /i 不 应 表述 





为 "我 觉得 满足 /不 满足 ”， 而 是 应 该 积极 分 析 给 定 三 个 点 时 的 三 角 关 系 ， 
或 者 推导 其 和 欧 氏 距离 的 关系 ， 这 样 哪怕 一 时 找 不 到 反例 而 误 认为 其 是 
合法 距离 ， 也 比 "觉得 不 满足 ”这样 蒙 对 正确 答案 要 好 。 


笔者 首次 注意 到 余弦 距离 不 符合 三 角 不 等 式 是 在 研究 电视 剧 的 标签 
时 ， 发 现在 通过 影视 语料库 训练 出 的 词 向 量 中 ，comedy 和 funny、funny 
和 happy 的 余弦 距离 都 很 近 ， 小 于 0.3， 然 而 comedy 和 happy 的 余 蓄 距离 
却 高 达 0.7。 这 一 现象 明显 不 符合 Fee 引起 了 我 们 的 注意 和 讨 
过 思考 和 推导 ， 得 出 了 上 述 结 


领域 ， 被 俗称 为 距离 ， 却 不 满足 三 条 距离 公理 的 不 仅仅 
有 余弦 距离 ， 还 有 KL 距离 (Kullback-Leibler Divergence) ， 也 叫 作 相对 
商 ， 它 常用 于 计算 两 个 分 布 之 间 的 差异 ， 但 不 满足 对 称 性 和 三 角 不 等 





04 ”A/B 测 试 的 陷阱 


场景 描述 


在 互联 网 公司 中 ，A/B 测试 是 验证 新 模块 、 新 功能 、 新 产品 是 否 有 
效 ， 新 算法 、 新 模型 的 效果 是 否 有 提升 ， 新 设计 是 否 受 到 用 户 欢迎 ， 新 
更 改 是 否 影响 用 户 体验 的 主要 测试 方法 。 在 机 器 学 习 领 域 中 ，A/B 测试 
是 验证 模型 最 终 效果 的 主要 手段 。 


知识 点 
ABIR, KHAL, IRA 


问题 1 在 对 模型 进行 过 充分 的 离线 评估 之 后 ， 为 什么 还 
要 进行 在 线 A/B 测 试 ? 





难度 ， desires 
分 析 与 解答 


需要 进行 在 线 A/B 测 试 的 原因 如 下 。 

(1) 离线 评估 全 消除 模型 过 拟 合 的 影响 ， 因 此 ， 得 出 的 离 
线 评估 结果 无 法 完全 普 代 线 上 评估 结果 。 

(2) 离线 评估 无 法 完全 还 原 线 上 的 工程 环境 。 一 般 来 讲 ， 离 线 评 
估 往 往 不 会 考虑 线 上 环境 的 延迟 、 数 据 丢失 、 标 签 数据 缺失 等 情况 。 因 
此 ， 离 线 评估 的 结果 是 理想 工程 环境 下 的 结果 。 













TA ， 离 线 评估 往往 
而 线 上 评估 可 以 全 面 了 解 该 推 
PALL 击 率 、 留 存 时 长 、PV 访 问 量 等 的 变化 。 这 些 都 要 
由 A/B 测 试 来 进行 全 面 的 评估 。 


问题 2 如 何 进行 线 上 A/B 测 试 ? 


HEE: oteier 
分 析 与 解答 


进行 A/B 测 试 的 主要 手段 是 进行 用 户 分 桶 ， 即 将 用 户 分 成 实验 组 和 
yi 组 ， 对 实验 组 的 用 户 施 以 新 模型 ， 对 对 照 组 的 用 户 施 以 旧 模型 。 在 
意 样本 的 独立 性 和 采样 方式 的 无 偏 性 ， 确 保 同一 - 

Rages 能 分 到 同 


个 桶 中 ， 在 分 桶 过 程 中 的 user_id 需 要 是 一 
个 随机 数 ， 这 样 才能 保证 桶 中 的 样本 是 无 偏 的 。 











问题 3 如 何 划分 实验 组 和 对 照 组 


难度 : deters te 


HH 公司 的 算法 工程 师 们 最 近 针 对 系统 中 的 “美国 用 户 * 研 发 了 一 套 全 
新 的 视频 推荐 模型 4， 而 目前 正在 使 用 的 针对 全 体 用 户 的 推荐 模型 
是 B。 在 正式 上 线 之 前 ， 工程 师 们 希望 通过 A/B 测 试 来 验证 新 推荐 模型 
下 面 有 三 种 实验 组 和 对 照 组 的 划分 方法 ， 请 指出 哪 种 划分 方法 
是 正确 的 ? 


(1) 根据 user_id (user_id 完 全 随机 生成 ) 个 位 数 的 奇偶 性 将 用 户 
划分 为 实验 组 和 对 照 组 ， 对 实验 组 施 以 推荐 模型 A， 对 照 组 施 以 推荐 模 





型 B; 


(2) 将 user_id 个 位 数 为 奇数 且 为 美国 用 户 的 作为 实验 组 ， 其 余 用 
户 为 对 照 组 ; 


G) 将 user_id 个 位 数 为 奇数 且 为 美国 用 户 的 作为 实验 组 ，user_ id 
个 位 数 为 偶数 的 用 户 作为 对 照 组 。 


分 析 与 解答 


上 述 3 种 A/B 测 试 的 划分 方法 都 不 正确 。 我 们 用 包含 关系 图 来 说 明 三 
种 划分 方法 ， ei ia ( 见 图 2.4 (a) ) 没有 区 分 是 否 为 美 
组 的 实验 结果 均 有 稀释 ; 方法 2 ( 见 图 
4 误 ， T E TA 
对 照 组 的 结果 被 稀释 ， 方 法 3〔 见 图 2.4 (c) ) 的 对 照 组 存在 
的 做 法 是 将 所 有 美国 用 户 根据 user i id 个 位 数 划分 为 试验 组 合 对 照 组 rai 
图 2.4 d) ) ， 分 别 施 以 模型 A 和 B， 才 能 够 验证 模型 A 的 效果 。 


实验 组 对 照 组 















(a) 散 列 空间 


实验 组 对 照 组 





(b) PEARL RIE 
实验 组 对 照 组 


Co) 有 偏 的 划分 方案 


实验 组 对 照 组 

















Cd) 正确 、 无 偏 的 划分 方案 
图 2.4 ”AIB 测 试 中 的 划分 方法 黄色 为 实验 组 ， 棕 色 前 对 照 组 ) 


05 ”模型 评估 的 方法 





在 机 器 学 习 中 ， 我 们 通常 把 样本 分 为 训练 集 和 测试 集 
训练 模型 ， 测 试 集 用 于 评估 模型 。 在 样本 划分 和 模型 
在 着 不 同 的 抽样 方法 和 验证 方法 。 本 小 节 主要 考察 面试 者 是 
方法 及 其 优 缺 点 、 是 否 能 够 在 不 同 问题 中 挑选 合适 的 评估 方法 。 








知识 点 
Holdout 检 验 ， 交 叉 验 证 ， 自 助 法 (Bootstrap) ， 微 积分 


问题 1 在 模型 评估 过 程 中 ， 有 哪些 主要 的 验证 方法 ， 它 
们 的 优 缺 点 是 什么 ? 





难度 : deters oe 


分 析 与 解答 


m Holdout} 4 


Holdout 检验 是 最 简单 也 是 最 直接 的 验证 方法 ， 它 将 原始 的 样本 集 
合 随机 划分 成 训练 集 和 验证 集 两 部 分 。 比 方 说 ， 对 个 点 击 率 预测 模 
型 ， 我 们 把 样本 按照 70%~30% 的 比例 分 成 两 部 分 ，70% 的 样本 用 于 
模型 训练 ，30% pi 包括 绘制 ROC 曲 线 、 计 算 精 确 率 
率 等 指标 来 评估 模型 性 能 














Holdout 检验 的 缺点 很 明显 ， 即 在 验证 集 上 计算 出 来 的 最 后 评估 指 
原始 分 组 有 很 大 关系 。 为 了 消除 随机 性 ， 研 究 者 们 引入 了 "交叉 检 











训练 和 评估 ;最 后 把 k 次 评估 指标 的 平均 值 作为 最 
终 的 评估 指标 。 在 实际 实验 中 ，k 经 常 取 10。 


一 验证 : 每 次 留 下 1 个 样本 作为 验证 集 ， 其 余 所 有 样本 作为 测试 
总 数 为 n， 依 次 对 nm 个 样本 进行 遍历 ， 进 行 n 次 验证 ， 再 将 评估 
指标 求 平均 值得 到 最 终 的 评估 指标 。 在 样本 总 数 较 多 的 情况 下 ， 留 一 验 
证 法 的 时 间 开销 极 大 。 留 一 验证 是 留 p 验 证 的 特例 。 留 p 验 证 是 
每 次 留 下 p 个 样本 作为 验 从 n 个 元 素 中 选择 p 个 元 素 有 Cs 种 可 
fae on ear 于 留 一 验证 ， 故 而 很 少 在 实际 工程 中 
被 应 用 。 















于 自助 法 
不 管 是 Holdout 检 验 还 是 交叉 检验 ， 都 是 基于 划分 训练 集 和 测试 集 
的 方法 进行 模型 评估 的 。 当 样本 规模 比较 小 时 ， 将 样本 集 进行 划 


分 会 让 训练 集 进一步 减 小 ， 这 可 能 会 影响 模型 训练 效果 。 有 没有 能 维持 
训练 集 样本 规模 的 验证 方法 呢 ? 自助 法 可 以 比较 好 地 解决 这 个 问题 。 


自助 法 是 基于 自助 采样 法 的 检验 方法 。 对 于 ， paai haia 
进行 np 次 有 放 回 的 随机 抽样 ， 得 到 大 小 为 n 的 训练 集 
有 的 样本 会 被 重复 采样 ， 有 的 样本 没有 被 抽出 过 ， 将 这 些 
样本 作为 验证 集 ， 进 行 模型 验证 ， 这 就 是 自助 法 的 验证 过 程 。 









问题 2 在 自助 法 的 采样 过 程 中 ， 对 n 个 样本 进行 m 
抽样 ， 当 n 趋 于 无 穷 大 时 ， 最 终 有 多 少数 据 从 未 被 选择 


过 ? 


难度 : ok 
分 析 与 解答 


1 
二 3) n 次 抽样 均 
1Nn 


未 抽 中 的 概率 为 om EAK, MEIS (ea) 





(2.47) 


因此 ， 当 样本 数 很 大 时 ， 大 约 有 36.8% 的 样本 从 未 被 选择 过 ， 可 作为 验 
证 集 。 


06 HSA 


对 于 很 多 算法 工程 师 来 说 ， 超 参数 调 优 是 件 非常 头疼 的 事 。 除 了 根 
据 经 验 设 定 所谓 的 “合理 值 "之 外 ， 一 般 很 难 找到 合理 的 方法 去 寻找 超 参 
数 的 最 优 取 值 。 而 与 此 同时 ， 超 参数 对 于 模型 效果 的 影响 又 至 关 重 要 。 
有 没有 一 些 可 行 的 办 法 去 进行 超 参数 的 调 优 呢 ? 





问题 超 参 数 有 哪些 调 优 方法 ? 


难度 : ekeke yr 


分 析 与 解答 





般 会 采用 网 格 搜索 、 随 机 搜 

k 需要 明确 超 参数 搜索 算 ; 
函数 ， 即 算法 需要 最 大 化 /最 小 化 的 目 
范围 ， 一 般 通 过 上 限 和 下 限 来 确定 ; 三 是 算法 的 其 他 参 : 


R Du 
一 般 包 


如 搜 













简单 、 应 用 最 广泛 的 超 参 数 搜索 算法 
点 来 确定 最 优 值 。 Pa a tied 
jd 有 很 大 概率 找到 全 局 最 优 值 。 然 而 ， E 
肖 耗 计算 资源 和 时 间 ， ASSL LULL LLC I 
因此 ， 在 实际 应 用 中 ， 网 格 搜索 法 一 般 会 先 使 用 较 广 的 搜索 范围 和 较 大 
的 步 长 ， 来 寻找 全 局 最 优 值 可 能 的 后 会 逐渐 缩小 搜索 范围 和 步 
长 ， 来 寻找 更 精确 的 最 优 值 。 这 种 操作 方案 可 以 降低 所 需 的 时 间 和 计算 








量 ， 但 由 于 目标 函数 一 般 是 非 凸 的 ， 所 以 很 可 能 会 错过 全 局 最 优 值 。 
于 随机 搜索 


随机 搜索 的 思想 与 网 格 搜索 比较 相似 ， 只 是 不 再 测试 上 界 和 下 界 之 
间 的 所 有 值 ， 而 是 在 搜索 范围 中 随机 选取 样本 点 。 它 的 理论 依据 是 ， 如 
果 样本 点 集 足够 大 ， 那 么 通过 随机 采样 也 能 大 概率 地 找到 全 局 最 优 值 ， 
或 其 近似 值 。 随 机 搜索 一 般 会 比 网 格 搜索 要 快 一 些 ， 但 是 和 网 格 搜索 的 
快速 版 一 样 ， 它 的 结果 也 是 没 法 保证 的 。 








里 贝 叶 斯 优化 算法 
贝 叶 斯 优化 算法 在 寻找 最 优 最 值 参数 时 ， 采 用 了 与 网 格 搜索 、| 随机 
搜索 完全 不 同 的 方法 。 网 格 搜索 和 随机 搜索 在 测 会 忽略 
ANETE | 充分 利用 了 之 前 员 叶 斯 





D 

找到 使 目标 函数 向 全 局 最 优 值 
提升 的 参数 。 SUG, 目标 函数 形状 的 方法 是 ， 首 先 根据 先 验 
分 布 ， 假 设 一 个 搜集 函数 ; ， 每 一 次 使 用 新 的 采样 点 来 测试 目标 函 
数 时 ， 利 用 这 个 信息 来 更 新 目标 函数 的 先 验 分 布 ; 最 后 ， 算 法 测试 由 后 
验 分 布 给 出 的 全 局 最 值 最 可 能 出 现 的 位 置 的 点 。 对 于 贝 叶 斯 优化 算法 ， 
有 一 个 需要 注意 的 地 方 ， 一 旦 找到 了 一 个 局 部 最 优 值 ， 它 会 在 该 区 
断 采 样 ， 所 以 很 容易 陷入 局 部 最 优 值 。 为 了 弥补 这 个 缺陷 ， 贝 叶 斯 优化 
算法 会 在 探索 和 利用 之 间 找 到 一 个 平衡 点 ,“ 探 索 ” 就 是 在 还 未 取样 的 区 

域 获 m 而 “利用 " 则 是 根据 后 验 分 布 在 最 可 能 出 现 全 局 最 值 的 区 

















用 套 超 参数 调 优 算法 来 烘焙 更 美味 的 饼干 






优 "来 优化 这 - 
a tem EEEMAE, Devine Gee 9 MAANAM JA 
参数 ， 而 最 后 到 底 是 哪些 因素 让 饼干 更 好 吃 谁 也 说 不 清楚 ， 这 不 








问题 的 最 好 方法 被 戏称 为 "博士 生 下 降 法 *《( 即 让 博士 生 
Google 为 了 解决 公司 内 部 大 晶 机 器 学 习 模型 的 
被 称 作 Google Vizier. Google Vizier 采 用 迁移 学 
为 新 算法 提出 最 佳 超 参 数 。 在 措 建 好 Google 





人 井村 人 下 信之 六 信息 





Vizier 后 ，Goagle 的 工程 师 们 为 了 测试 他 们 的 算法 ， 向 Google 食 堂 所作 饼干 的 承包 商 提供 
了 饼干 食谱 和 烘焙 方法 ， 并 不 断 对 结果 进行 了 口味 测试 。 在 经 过 儿 轮 测试 和 烘焙 方法 
优 之 后 ， 饼 干 确实 更 好 吃 了 ..….. 继 AlphaGo 击 败 了 围棋 选手 之 后 ， 全 世界 的 厨师 们 也 许 已 
经 在 Google Vizier i B BAF. 








07 过 拟 合 与 欠 拟 合 


在 模型 评估 与 调整 的 过 程 中 ， 我 们 往往 会 遇 到 “过 拟 合 "或 " 欠 拟 
合 "的 情况 。 如 何 有 效 地 识别 合 " 和 *“ 欠 拟 合 "现象 ， 并 有 针对 性 地 
进行 模型 调整 ， 是 不 断 改进 机 器 学 习 模型 的 关键 。 特 别 是 在 实际 项 目 
中 ， 采 用 多 种 方法 、 从 多 个 角度 降低 < 过 拟 合 "和 *“ 欠 拟 合 "的 风险 是 算法 
工程 师 应 当 具 备 的 领域 知识 。 





知识 点 
过 拟 合 ， 欠 拟 合 


问题 1 在 模型 评估 过 程 中 ， 过 拟 合 和 欠 拟 合 有 具体 是 指 什 
AMR? 


难度 : eeir de te 


分 析 与 解答 





过 拟 合 是 指 模型 对 于 训练 数据 拟 合 呈 过 当 的 情况 ， 反 映 到 评估 指标 
上 上， 就 是 模型 在 训练 集 上 的 表现 很 好 ， 但 在 测试 集 和 新 数据 上 的 表现 较 
差 。 欠 拟 合 指 的 是 模型 在 训练 和 预测 时 表现 都 不 好 的 情况 。 图 2.5 形 象 
地 描述 了 过 拟 合 和 欠 拟 合 的 区 别 。 








可 以 看 出 ， 图 2.5 (a) 是 欠 拟 合 的 情况 ， 拟 合 的 黄 线 没有 很 好 地 捕 
捉 到 数据 的 特征 ， 不 能 够 很 好 地 拟 合 数据 。 图 2.5 O 则 是 过 拟 合 的 情 
况 ， 模 型 过 于 复杂 ， 把 噪声 数据 的 特征 也 学 习 到 模型 中 ， 导 致 模型 泛 化 
能 力 下 降 ， 在 后 期 应 用 过 程 中 很 容易 输出 错误 的 预测 结果 。 


问题 2 能 否 说 出 几 种 降低 过 拟 合 和 欠 拟 合 风险 的 方法 ? 


难度 交友 立交 六 
分 析 与 解答 


时 降低 < 过 拟 合 " 风 险 的 方法 


ip EN BEELI 练 数据 。 使 用 更 多 的 训练 数据 是 

， 因 的 样本 能 够 让 模型 学 习 到 更 多 
直接 增加 实验 数据 一 般 是 很 困 
难 的 ， 但 是 可 以 通过 一 定 的 规则 来 扩 练 数据 。 比 如 ， 在 图 像 分 类 的 
问题 上 ， 可 以 通过 图 像 的 平移 、 旋 转 、 缩 放 等 方式 扩充 数据 ;更 进一步 
地 ， 可 以 使 用 生成 式 对 抗 网 络 来 合成 大 量 的 新 训练 数据 。 


C2) 降低 模型 复杂 度 。 在 数据 较 少 时 ， 模 型 过 于 复杂 是 产生 过 拟 
合 的 主要 因素 ， 适 当 降低 模型 复杂 度 可 以 避免 模型 拟 合 过 多 的 采样 噪 
声 。 例 如 ， 在 神经 网 络 模型 中 减少 网 络 层 数 、 神 经 元 个 数 等 ， 在 决策 树 
模型 中 降低 树 的 深度 、 进 行 剪 枝 等 。 











G) 正则 化 方法 。 给 模型 的 参数 加 上 一 定 的 正则 约束 ， 比 如 将 权 
值 的 大 小 加 入 到 损失 函数 中 。 以 L2 正 则 化 为 例 : 


A 
C=Q+A Ew 
ot Zw 


(2.18) 


这 样 ， 在 优化 原来 的 目标 函数 Co 的 同时 ， 也 能 避免 权 值 过 大 带 来 的 过 拟 
合 风 险 。 


(4) 集成 学 习 方 法 。 集 成 学 习 是 把 多 个 模型 集成 在 一 起 ， 来 降低 
单一 模型 的 过 拟 合 风险 ， 如 Bagging 方 法 。 


里 降低 < 欠 拟 合 " 风 险 的 方法 


(1) 添加 新 特征 。 当 特征 不 足 或 者 现 有 特征 与 
不 强 时 ， 模 型 容易 出 现 欠 拟 合 。 通 过 挖掘 “上下文 特 ; 
合 特征 ”等 新 的 特征 ， 往 往 能 够 取得 更 好 的 效果 。 在 深度 
有 很 多 模型 可 以 帮助 完成 特征 工程 ， 如 因子 分 解 机 、 Taree a 
Deep-crossing 等 都 可 以 成 为 丰富 特征 的 方法 。 


C2) 增加 模型 复杂 度 。 简 单 模型 的 学 习 能 力 较 差 ， 通 过 增加 模型 
的 复杂 度 可 以 使 模型 拥有 更 强 的 拟 合 能 力 。 例 如 ， 在 线性 模型 中 添加 高 
次 项 ， 在 神经 网 络 模型 中 增加 网 络 层 数 或 神经 元 个 数 等 。 


(3) 减 小 正则 化 系数 。 正 则 化 是 用 来 防止 过 拟 合 的 ， 但 当 模 型 出 
现 欠 拟 合 现象 时 ， 则 需要 有 针对 性 地 减 小 正则 化 系数 。 








第 3 章 经 典 算法 


不 忘 初 心 ， 方 得 始终 。 何 谓 “ 初 心 "? 初 心 便 是 在 深度 学 习 、 人 工 智 
能 呼风唤雨 的 时 代 ， 对 数据 和 纤 此 论 之 间 那 条 朴素 之 路 的 永恒 探寻 ， 是 集 
前 人 之 大 智 真诚 质朴 求法 向 道 的 心中 风 愿 。 


没有 最 好 的 分 类 器 ， 只 有 最 合适 的 分 类 器 ， piti 
热 大 有 一 统 江湖 之 势 ， 机 器 












经 网 络 模型 日 趋 
ety 已经 vee 





深度 网 络 结构 也 是 无 的 
我 们 EARE LEERDER, EE 
身手 的 余地 ， 反 而 许多 传统 方法 可 以 灵活 巧妙 地 进行 处 理 。 


本 章 将 介绍 有 监督 学 习 中 的 几 种 经 典 分 类 算法 ， ARTEEN 
分 析 ， 再 到 扩展 应 用 ， 深 入 浅 出 地 为 读者 解读 分 : 

败 兴衰 。 掌 握 机 器 学 习 的 基本 模型 ， 不 仅 是 : 
据 工程 师 的 基础 ， 更 可 以 将 很 多 数学 模型 、 
工 智能 时 代数 据 海洋 中 的 规律 与 本 源 。 








学 好 ‘ 
统计 理论 学 以 致 用 ,探寻 人 


01 支持 向 量 机 


场景 描述 


支持 向 量 机 (Support Vector Machine, SVM) 是 众多 监督 学 习 方法 
中 十 分 出 色 的 一 种 ， 几 乎 所 有 讲述 经 典 机 器 学 习 方 法 的 教材 都 会 介绍 。 
关于 SVM， 流 传 着 一 个 关于 天 使 与 魔鬼 的 故事 。 


传说 魔鬼 和 天 使 玩 了 一 个 游戏 ， 魔 鬼 在 桌 上 放 了 两 种 颜色 的 球 ， 如 
图 3.1 所 示 。 魔 鬼 让 天 使 用 一 根木 棍 将 它们 分 开 。 这 对 天 使 来 说 ， 似 乎 
太 容易 了 。 天 使 不 假 思索 地 一 摆 ， 便 完成 了 任务 ， 如 图 3.2 所 示 。 魔 鬼 
又 加 入 了 更 多 的 球 Pe 似乎 有 的 球 不 能 再 被 原来 的 木 棍 正 
确 分 开 ， 如 图 3.3 所 示 。 








图 31 分 球 问题 1 


图 32 分 球 问题 1 的 简单 解 





图 33 分 球 问题 2 


SVM 实际 上 是 在 为 天 使 找到 木 棒 的 最 佳 放置 位 置 ， 使 得 两 边 的 球 都 
离 分 隔 它们 的 木 棒 足 够 远 ， 如 图 3.4 所 示 。 依 照 SVM 为 天 使 选择 的 木 棒 
位 置 ， 魔 鬼 即使 按 刚才 的 方式 继续 加 入 新 球 ， 木 棒 也 能 很 好 地 将 两 类 不 
同 的 球 分 开 ， 如 图 3.5 所 示 。 





图 35 分 球 问题 1 的 优化 解 而 对 分 球 问题 2 


看 到 天 使 已 经 很 好 地 解决 了 用 木 棒 线性 分 球 的 问题 ， 魔 鬼 又 给 了 天 
使 一 个 新 的 挑战 ， 如 图 3.6 所 示 。 按 照 这 种 球 的 捍 法 ， 世 界 上 貌似 没有 
j 完美 分 开 。 但 天 使 毕竟 有 法 力 ， 他 一 拍 桌 子 ， 便 让 
这 些 球 飞 到 了 空中 ， 然 后 凭借 念力 抓 起 一 张 纸 片 ， 插 在 了 两 类 球 的 中 
间 ， 如 图 3.7 所 示 。 从 魔鬼 的 角度 看 这 些 球 ， 则 像 是 被 一 条 曲线 完美 的 
切 开 了 ， 如 图 3.8 所 示 。 





图 36 分 球 问题 3 








o 9 4 
输入 空间 核 映射 空间 
图 37 高 维 空间 中 分 球 问题 3 的 解 








图 38 魔鬼 视角 下 分 球 问题 3 的 解 
后 来 ,“ 无 聊 "的 科学 家 们 把 这 些 球 称 为 数据 "， 把 木 棍 称 为 “分 类 


面 "， 找 到 最 大 间隔 的 木 棒 位 置 的 过 程 称 为 优化"， 拍 桌子 让 球 飞 到 空 
中 的 念力 叫 " 核 映射 "， 在 空中 分 隔 球 的 纸 片 称 为 “分 类 超 平面 "。 这 便 是 
SVM 的 童话 故事 。 


在 现实 世界 的 机 器 学 习 领 域 ，SVM 涵 盖 了 各 个 方面 的 知识 ， 也 是 面 
试题 目 中 常见 的 基础 模型 。 本 节 的 第 1 个 问题 考察 SVM 模型 推导 的 基础 
知识 ; 第 2 题 一 第 4 题 则 会 侧重 对 核 函 数 Kernel Function) 的 理解 。 











知识 点 


SVM 模型 推导 ， 核 函数 ，SMO (Sequential Minimal Optimization) 
算法 


问题 1 在 空间 上 线性 可 分 的 两 类 点 ， 分 别 向 SVM 分 类 的 
超 平面 上 做 投影 ， 这 些 点 在 超 平面 上 的 投影 仍然 是 线性 
可 分 的 吗 ? 


WEE: dokok 
分 析 与 解答 


首先 明确 下 题目 中 的 概念 ， 线 性 可 分 的 两 类 点 ， 即 通过 一 个 超 平面 

可 以 将 两 类 点 完全 分 开 ， 如 图 3.9 所 示 。 假 设 绿色 的 超 平 面 ( 对 于 二 维 

空间 来 说 ， 分 类 超 平面 退化 为 一 维 直线 ) 为 SVM 算 法 计算 得 出 的 分 类 

面 ， 那 么 两 类 点 就 被 完全 分 开 。 我 们 讨 的 是 : 将 这 两 类 点 向 绿色 平 

面 上 做 投影 ， 在 分 类 直线 上 得 到 的 黄 棕 两 类 投影 上 然 线 性 可 分 ， 
如 图 3.10 所 示 。 





图 39 支持 向 量 机 分 类 面 





图 3.10 样本 点 在 分 类 而 上 投影 


显然 一 眼 望 去 ， 这 些 点 在 分 类 超 平面 (绿色 直线 ) 上 相互 间隔 ， 并 
不 是 线性 可 分 的 考虑 一 个 更 简单 的 反例 ， 设 想 二 维 空间 中 只 有 两 个 样 
本 点 ， 每 个 点 各 属于 一 类 的 分 类 任务 ， 此 时 SVM 的 分 类 超 平面 (直线 ) 
雪人 的 中 垂 线 ， 两 个 点 在 分 类 面 〈 直 线 ) 上 的 投影 会 落 
到 这 条 直线 上 的 同一 个 点 ， 自 然 不 是 线性 可 分 的 。 


际 上 ， 对 于 任意 线性 可 分 的 两 组 点 ， 它 们 在 SVM 分 类 的 超 平面 
都 是 线性 不 可 分 的 。 这 听 上 去 有 些 不 可 思议 ， 我 们 不 妨 从 二 维 
论 ， 再 推广 到 高 维 空间 中 。 


由 于 SVM 的 分 类 超 平面 仅 由 支持 向 量 决定 之 后 会 
论 ) ， 我 们 可 以 考虑 一 个 只 含 支持 向 量 SVM 模 型 场景 。 使 用 反 证 法 来 证 
明 。 假 设 存在 一 个 SVM 分 类 超 平面 使 所 有 支持 向 量 在 该 超 平面 上 的 投影 





















可 分 ， 如 图 3.11 所 示 。 根 据 简单 的 初等 几何 知识 不 难 发 现 ， 图 






线 的 中 重 成 的 超 平面 (绿色 虚线 ) ene poe 
RALOBA, 与 之 前 假设 绿色 实 线 超 平面 为 最 优 的 | 
SERRA NER ERA, 两 组 点 过 投影 后 ， 并 不 att 





z 
a 





图 3.11 更 优 的 分 类 超 平 而 


我 们 的 证 明 目 前 还 有 不 严谨 之 处 ， 即 我 们 假设 了 仅 有 支持 向 量 的 情 
况 ， 会 不 会 在 超 平面 的 变换 过 程 中 支持 向 量 发 生 了 改变 ， 原 先 的 非 支 持 
向 量 和 支持 向 量 发 生 了 转化 呢 ? 下 面 我 们 证 明 SVM 的 分 类 结果 仅 依赖 于 
支持 向 量 。 考 虑 SVM 推导 中 的 KKT 条 件 要 求 





VO f',a")= 0" Sly, =0 
(3.1) 
Re A 
V,L(o' pa J=- n =0 
(3.2) 


@g(a)=0, i=1,....N, 
(3.3) 





(3.4) 


(3.5) 


结合 式 3.3) 和 式 (3.4) 两 个 条 件 不 难 发 现 ， 当 qi(w+j<0 时 ， 必 有 
)， 将 这 一 结果 与 拉 格 朗 日 对 偶 优化 问题 的 公式 相 比较 





a 
L,e, p’) = Lo? + Ye g,(0") 


(3.6) 


其 中 ， 


8(a")=—y,(@" +x, + 8) +1, 
7) 


可 以 看 到 ， 除 支持 向 量 外 ， 其 他 系数 均 为 0， 因 此 SVM 的 分 类 结果 
与 仅 使 用 支持 向 量 的 分 类 结果 一 A 说 明 SVM 的 分 类 结果 仅 依赖 于 支持 
向 量 ， 这 也 是 SVM 拥有 极 | 率 的 关键 之 一 。 于 是 ， 我 们 证 明了 对 
于 任意 线性 可 分 的 两 纪 SVARAT RAIA 
不 可 分 的 。 


实际 上 ， 该 问题 也 可 以 通过 凸 优化 理论 中 的 超 平面 分 离 定 理 
《Separating Hyperplane Theorem，SHT) 更 加 轻巧 地 解决 。 该 定理 描述 
sla 对 于 不 相交 的 两 个 凸 集 ， 存 在 一 个 超 平面 ， 将 两 个 凸 集 分 离 。 对 

- 维 的 情况 ， 两 个 凸 集 问 距 离 最 短 两 点 连 线 的 中 垂 线 就 是 一 个 将 它们 
FAMEEN. 


借助 这 个 定理 ， 我 们 可 以 先 对 线性 可 分 的 这 两 组 点 求 各 自 的 凸 包 。 
不 难 发 现 ，SVM 求 得 的 超 平面 就 是 两 个 凸 包 上 距离 最 短 的 两 点 连 线 的 中 
HEAL, PRESTER AEP AT HRA LE 

















质 容易 知道 ， 凸 包 上 的 点 要 么 是 样本 点 ， 要 么 处 于 两 个 样本 
上 。 因 此 ， 两 个 凸 包间 距离 最 短 的 两 3 三 种 


均 为 样本 点 ， 如 图 3.12 (a) Bia 
3.12 (b) 所 示 ; 一 边 的 点 为 样本 : 的 点 在 样本 点 E, 
A312 (c) Mia. AJL ean 论 哪 种 情况 两 类 点 的 投 


影 均 是 线性 不 可 分 的 。 
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图 342 PA A EDERE A RE EAR 


至 此 ， 我 们 从 SVM 直观 推导 和 凸 优化 理论 两 个 角度 揭示 了 题目 的 真 
相 。 其 3 ht ji 













面 对 每 一 个 小 问题 ， 我 们 都 应 该 从 数学 4 
EGE AOL SL TTT 5 LILE LAT — EPERE 才能 不 断 
步 步 攀登 机 器 学 习 的 高 峰 。 
问题 2 是 香 存在 一 组 参数 使 SVM 训练 误差 为 0? 
难度 : tok kay 


e- le- P ngseisvMet, RENH 
tmb} Uh 





一 个 使 用 高 斯 核 (K(z， 
给 定 训练 集中 不 存在 两 个 点 在 同一 位 置 ， 则 存在 一 组 参数 {a1,.…… 


及 参数 y 使 得 该 SVM 的 训练 误差 为 0。 





分 析 与 解答 


根据 SVM 的 原理 ， 我 们 可 以 将 SVM 的 预测 公式 可 写 为 
œ= Ye, YÖK x)+b 
各 
(3.8) 
Peel). ,gy 四 )) 为 训练 样本 ， 而 {ay,.…awmwb} 以 及 高 斯 核 参 
数 y 为 训练 样本 的 参数 。 由 于 不 存在 两 个 点 在 同一 位 置 ， 因 此 对 于 任意 


的 i#， 有 z 一 za 我 们 可 以 对 任 定 ai=1 以 及 b=0， 只 保留 参 
By, WA 














SOFA KK, x) +b 
= Dy KO, x) 


Cab? 
= dy eben, 
= 








(39) 
将 任意 xO 代 入 式 GD 则 有 
(x) = Py Perth? 
人 ， 
(3.10) 
lal) y= 
(3.11) 


-yts E enen 


ides 


(3.12) 


bagal” -2s pr = =/Viagm， 可 将 式 (3.12) 重 写 为 


PP 


WF@)-y? ISI] 





A a m-l 
<i Teml= <l 
isle} m a 


(3.13) 


BL, ITER, MWARI (2) GREATS he Ry MBBS F 
L HEAL, YOR (1-1), MERANER, Bly!) — ] 时 ， 预 测 结果 
J(zo)>0， 样 本 被 预测 为 正 例 ， 而 当 训练 样本 为 负 例 ， 即 y5) = 一 ] 时 ， 
预测 结果 f [zt )k0， 样 本 被 预测 为 负 例 。 因 此 所 有 样本 的 类 别 都 被 正确 
预测 ， 训 练 误差 为 0。 





问题 3 训练 误差 为 0 的 SVM 分 类 器 一 定 存在 吗 ? 


难度 : tok kok 


虽然 在 问题 2 中 我 们 找到 了 一 组 参数 {ay,.…,am,b} 以 及 y 使 得 9VM 的 训 
练 误差 为 0， 但 这 组 参数 不 一 定 是 满足 SVM 条 件 的 一 个 解 。 在 实际 训练 
一 个 不 加 入 松弛 变量 的 SVM 模型 时 ， 是 否 能 保证 得 到 的 SVM 分 类 器 满 
足 训练 误差 为 0 呢 ? 





分 析 与 解答 





问题 2 找到 了 一 组 参数 使 得 SVM 分 类 器 的 训 FEO. ACS CER 
到 一 组 参数 满足 训练 误差 为 0， 且 是 SVM 模型 的 一 个 解 。 





ABS VM BE A ESTE aR Py FC) > 1。 我 们 已 经 得 到 了 一 组 
Sey? =p, febo; mit- feo MERER 
到 一 组 参数 满足 更 强 的 条 件 ， 即 yi fe) > 1。 


F(z) = 3 vy! Kla, r) n 
MAMbo, FEAE i REND aih 
开 ， 


yf) = 9S, yKCA a) 


= a WK) Ý ay YOKE” x) 
ites 


=a,+ Ý ay yI KOO, x), 
Gz 


(3.14) 


观察 式 (3.14) ， 可 以 把 每 个 gj 都 选择 一 个 很 大 的 值 ， 同 时 取 一 个 
非常 小 的 y， 使 得 核 映射 项 玉 fza,zo)j 常 小 ， 于 是 ag 在 上 式 中 占据 绝对 


主导 地 位 。 这 样 就 保证 对 任意 ] 有 yf(z 中 >1， 满 足 SVM 解 的 条 件 。 因 
此 SVM 最 优 解 也 满足 上 : 同时 一 定 使 模型 分 类 误差 为 0。 








问题 4 加 入 松弛 变量 的 SVM 的 训练 误差 可 以 为 0 吗 ? 


难度 : oka 
在 实际 应 用 中 ， 如 果 使 用 SMO 算 法 来 训练 一 个 加 入 松弛 变量 的 线性 


SVM 模型 ， 并 且 惩 罚 因 子 C 为 任 一 未 知 常数 ， 我 们 是 否 能 得 到 训练 误差 
为 0 的 模型 呢 ? 


分 析 与 解答 


使 用 MO 算法 训练 的 线性 分 类 器 并 不 一 定 能 得 到 训练 误差 为 0 的 模 
型 。 这 是 由 于 我 们 的 优化 目标 改变 了 ， 并 不 再 是 使 训练 误差 最 小 。 考 虑 


CVS l 
MEE RUSVMEN ALORE tasty. Oy all 
， 当 我 们 的 参数 C 选 取 较 小 的 值 时 ， 后 一 项 〈 正 则 项 ) 将 占据 优化 的 较 
大 比重 。 这 样 ， 一 个 带 有 训练 误差 ， 但 是 参数 较 小 的 点 将 成 为 更 优 的 结 
果 。 一 个 简单 的 特例 是 ， 当 C 取 0 时 ，w 也 取 0 即 可 达到 优化 目标 ， 但 是 
显然 此 时 我 们 的 训练 误差 不 一 定 能 达到 0。 








SVM 理论 的 创始 人 Vladimir Vapnik 和 他 的 牛人 同事 
"“ 物 以 类 聚 ， 人 以 群 分 "， 星 光 办 内 的 牛人 也 往往 扎堆 出 现 。1995 年 ， 当 统计 学 家 
Vladimir 。Vapnik 和 他 的 同事 提出 SVM 理论 时 ， 他 所 在 的 贝尔 实验 室 还 聚集 了 一 大 批 机 器 
学 习 领 域 大 名 颈 剖 的 牛人 们 ， 其 中 就 包括 被 兴 为 "人 工 智能 : 位 
Yann LeCun 和 Yoshua Bengio， 还 有 随机 梯度 下 降 法 的 创始 人 Leon Bouou。 无 论 是 在 传统 
的 机 器 学 习 领 域 ， 还 是 当今 如 火 如 茶 的 深度 学 习 领 域 ， 这 几 个 人 的 名 字 都 如 雷 贯 耳 。 而 
SVM 创始 人 Vapnik 的 生平 也 带 有 一 丝 传奇 色彩 。 


1936 年 ，Vladimir Vapnik 出 生 于 苏联 < 
1958 年 ， 他 在 乌兹别克 大 学 完成 硕士 学 业 - 


1964 年 ， 他 于 莫斯科 的 控制 科学 学 院 获得 博士 学 位 
1990 年 。 在 此 期 间 ， 他 成 了 该 校 计算 机 科学 与 研究 系 的 系 


1995 年 ， 他 被 伦敦 大 学 聘 为 计算 机 与 统计 科学 专业 的 教授 。 


1991 至 2001 年 间 ， 他 工作 于 AT&T 贝 尔 实验 室 ， 并 和 他 的 同事 们 一 起 提出 了 支持 向 
量 机 理论 。 他 们 为 机 器 学 习 的 许多 方法 商定 了 理论 基础 。 


2002 年 ， 他 工作 于 新 泽 西 州 普林斯顿 的 NEC 实 验 室 ， 同 时 是 哥伦比亚 大 学 的 特聘 教 




















业 后 ， 他 一 直 在 校 工作 到 





2006 年 ， 他 成 为 美国 国家 工程 院 院 士 。 
2014 年 ， 他 加 入 了 Facebook 人 工 智 能 实验 室 。 


02 ”逻辑 回归 


逻辑 回归 (Logistic Regression) 可 以 说 是 机 器 学 习 领 域 最 基础 也 是 
最 常用 的 模型 ， 逻 辑 回归 的 原理 推导 以 及 扩展 应 用 几乎 是 算法 工程 师 的 
必 备 技能 。 医 生病 理 诊断 、 银 行 个 人 信用 评估 、 邮 箱 分 类 垃圾 邮件 等 ， 
无 不 体现 逻辑 回归 精巧 而 广泛 的 应 用 。 本 小 节 将 从 模型 与 原理 出 发 ， 涵 
盖 扩 展 与 应 用 ， 一 探 逻 辑 回归 的 真 详 。 





知识 点 
逻辑 回归 ， 线 性 回归 ， 多 标签 分 类 ，Softmax 


问题 1 逻辑 回归 相 比 于 线性 回归 ， 有 何 异 同 ? 


难度 : doktor 
分 析 与 解答 


逻辑 回归 ， 乍 一 听 名 字 似 乎 和 数学 中 的 线性 回归 问题 异 派 同 源 ， 但 
其 本 质 却 是 大 相 径 庭 。 


首先 ， 逻 辑 回归 处 理 的 是 分 类 问题 ， 线 性 回归 处 理 的 是 回归 问题 ， 
的 最 本 质 的 区 别 。 带 辑 回归 中 ， 因 变量 取 值 是 一 个 二 元 分 布 ， 
得 出 的 是 Ely|z;9， 即 给 定 自 变量 和 超 参 数 后 ， 得 到 因 变 量 的 期 
望 ， 并 基于 此 期 望 来 处 理 预 测 分 类 问题 。 而 线性 回归 中 实际 上 求解 的 是 
矿 二 人 z， 是 对 我 们 假设 的 真实 关系 y = Ow + = 的 一 个 近似 ， 其 中 ec 代表 





误差 项 ， 我 们 使 用 这 个 近似 项 来 处 理 回归 问题 。 


分 类 和 回归 是 如 今 机 习 中 两 个 不 同 的 任务 ， 而 属于 分 类 算法 的 
逻辑 回归 ， 其 命名 有 一 定 的 历史 原因 。 这 个 方法 最 早 由 统计 学 家 David 
Cox 在 他 1958 年 的 论文 《二 元 序列 中 的 回归 分 析 》 (The regression 
analysis of binary sequences) 中 提出 ， 人 们 对 于 回归 与 分 类 的 定义 
与 今天 有 一 定 区 别 ， 只 是 将 “回归 "这 一 名 字 沿用 了 。 实 际 上 ， 将 逻辑 回 


oR ne gt, 
归 的 公式 进行 整理 ， 我 们 可 以 得 到 “了 5 一 ””， 其 中 p= Ply = 12), 
RAED ARDEA KBER, EPPA 
odds) si Jae ME RE IER SAET RAE ERRET D 
IAB REIT AE SENT T Epe i PEALE ERE, 
FLA E RARE T FR 















p 
在 关于 逻辑 回归 的 讨论 中 ， 我 们 均 认为 y 是 因 变 量 ， 而 非 1 一 mm 这 
便 引 出 逻辑 回归 与 线性 回归 最 大 的 区 别 ， 即 逻辑 回归 中 的 因 变 量 为 离散 
的 ， 而 线性 回归 中 的 因 变 量 是 连续 的 。 并 且 在 自 变量 x 与 超 参数 9 确定 的 
情况 下 ， 逻 辑 回归 可 以 看 作 广 义 线性 模型 (Generalized Linear Models) 
在 因 变 量 y 服 从 二 元 分 布 时 的 一 个 特殊 情况 ， 而 使 用 最 小 二 乘法 求解 线 
性 回归 时 ， 我 们 认为 因 变量 y 服 从 正 态 分 布 。 


当然 逻辑 回归 和 线性 回归 也 不 乏 相 同 之 处 ， kte A E 
都 使 用 了 极 大 似 然 估计 来 对 训练 样本 进行 建 模 。 线 性 回归 使 用 最 小 二 
法 ， 实 际 上 就 是 在 自 变 量 x 与 超 参 数 9 确定 ， reese 
Mef: 而 逻辑 回归 中 通过 对 似 然 函 数 

学 习 ， 得 到 最 佳 参数 9。 另 外 ， 二 者 在 求解 超 
都 可 以 使 用 梯度 下 降 的 方法 ， 这 也 是 监督 学 习 中 一 个 党 









问题 2 当 使 用 逻辑 回归 处 理 多 标签 的 分 类 问题 时 ， 有 哪 
些 常见 做 法 ， 分 别 应 用 于 哪些 场景 ， 它 们 之 间 又 有 怎样 
的 关系 ? 


难度 : doeke 


分 析 与 解答 


使 用 哪 一 种 办 法 来 处 理 多 分 类 的 问题 取决 于 具体 问题 的 定义 。 首 
先 ， 如 果 一 个 样本 只 对 应 于 一 个 标签 ， 我 们 可 以 假设 每 个 样本 属于 不 同 
PENATI 几何 分 布 ， 使 用 多 项 逻辑 回归 (Softmax Regression) 
进行 分 类 


=| 





(3.15) 






其 中 8,&,…,0L eR 为 模型 的 参数 ， 而 乞 。 可 以 看 作 是 对 概率 的 归 一 
He. WT Ar OREN, RULO» Apron», sek >A A HEUTE 
成 mxk 维 矩阵 ， 写 作 8， 表 示 整 个 参数 集 。 一 般 来 说 ， 多 项 逻辑 回归 具有 
参数 宛 余 的 特点 ， 即 将 ,全 ,…， 
特别 地 ， 当 类 别 数 为 2 时 ， 


1 ef 
WO" al a 
e I. 
(3.16) 


利用 参数 宛 余 的 特点 ， 我 们 将 所 有 参数 减 去 gj， 式 3.16) 变 为 
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(3.17) 


其 中 9 =O, - 8, MVR SEM AV—Be. Ae, LIAE 
归 实际 上 是 二 分 类 逻辑 回归 在 多 标签 分 类 下 的 一 种 拓展 。 


当 存 在 样本 可 能 属于 多 个 标签 的 情况 时 ， 我 们 可 以 训练 k 个 二 分 类 
的 逻辑 回归 分 类 器 。 第 i 个 分 类 器 用 以 区 分 每 个 样本 是 否 可 以 归 为 第 i 
类 ， 训 练 该 分 类 器 时 ， 需 要 把 村 新 整理 为 "第 类 标签 "与 "“ 非 第 类 标 
WAR. 通过 这 样 的 办 法 ， 我 们 就 解决 了 每 个 样本 可 能 拥有 多 个 标签 
的 情况 。 





03 ”决策 树 


场景 描述 


时 间 : 早上 八 点 ， 地 点 : 婚介 所 。 

“图 女 ， 我 又 给 你 找 了 个 合适 的 对 象 ， 今 天 要 不 要 见 一 面 ? ” 
“BK? ”26 岁 。” 

“长 得 帅 吗 ? ”“ 还 可 以 ， 不 算 太 帅 。” 

“工资 高 么 ?”“ 略 高 于 平均 水 平 。” 

“会 写 代码 吗 ? ”人 家 是 程序 员 ， 代 码 写 得 棒 着 呢 ! ” 

“好 ， 那 把 他 联系 方式 发 来 吧 ， 我 抽空 见 一 面 。” 

这 便 是 中 国 特色 相亲 故事 ， 故 事 中 的 女孩 做 决定 的 过 程 就 是 一 个 典 


型 的 决策 树 分 类 ， 如 图 3.13 所 示 。 通 过 年 龄 、 长 相 、 工 资 、 是 否 会 编程 
等 属性 对 男生 进行 了 两 个 类 别 的 分 类 :， 见 或 不 见 。 





图 3.13 “女孩 的 分 类 决策 过 程 


决策 树 是 一 种 自 上 而 下 ， 对 样本 数据 进行 树 形 分 类 的 过 程 ， 由 结 点 
和 有 向 边 组 成 。 tt a 其 中 每 个 内 部 结 点 表 吉 
oe 












个 特征 或 属性 点 表示 类 别 。 从 顶部 根 结 点 开始 ， 所 有 样本 聚 在 一 
起 的 划分 ， 样 本 被 分 到 不 同 的 子 结 点 中 。 再 根据 子 结 点 的 
特征 分 ， 直 至 所 有 样本 都 被 归 到 某 一 CAMMY ZAR) 中 。 





决策 树 作为 最 基础 、 最 常见 的 有 监督 学 习 模型 ， 常 被 用 于 分 类 问题 


和 回归 问题 ， 在 市 场 营销 和 生物 医药 等 领域 尤其 受 欢迎 ， 主 要 因为 树 形 
tree bial 诊断 等 场景 下 的 决策 过 程 十 分 相似 。 将 决策 树 应 用 集成 学 








ten Seca SELIM BE REE) AEA CRI 


决策 树 的 生成 包含 了 特征 选择 、 树 的 构造 、 树 的 
个 过 程 ， 本 节 将 在 第 一 个 问题 中 对 几 种 常用 的 决策 树 进行 对 比 ， 在 
个 问题 中 探讨 决策 树 不 同 剪 枝 方法 之 间 的 区 别 与 联系 。 









知识 点 
信息 论 ， 树 形 数据 结构 ， 优 化 理论 


问题 1 决策 树 有 哪些 常用 的 启发 函数 ? 


难度 : eere veve 


我 们 知道 ， 决 策 树 的 目标 是 从 一 组 样本 数据 中 ， 根 据 不 同 的 特征 和 
属性 ， 建 立 一 标 树 形 的 分 类 结构 。 我 们 既 希 望 它 能 拟 合 训练 数据 ， 达 到 
良好 的 分 类 效果 ， 同 时 又 希望 控制 其 复杂 度 ， 使 得 模型 具有 一 定 的 泛 化 
能 力 。 对 于 一 个 特定 的 问题 ， 决 策 树 的 选择 可 能 有 很 多 种 。 比 如 ， 在 场 
景 描述 中 ， 如 果 女 孩 把 会 写 代码 这 一 属性 放 在 根 结 点 考虑 ， 可 能 只 需要 
很 简单 的 一 个 树 结构 就 能 完成 分 类 ， 如 图 3.14 所 示 。 


不 会 





图 3.14 ”以 写 代码 为 根 节 点 属性 的 决策 过 程 


决策 树 中 选取 最 优 的 决策 树 是 一 个 NP 完 全 问题 ， 在 
用 启发 式 学 习 的 方法 去 构建 一 棵 满足 启发 式 条 件 的 


从 若干 
实际 中 我 们 通 
决策 树 。 

常用 的 决策 树 算法 有 ID3、C4.5、CART， 它 们 构建 树 所 使 用 的 启发 
式 函 数 各 是 什么 ? 除了 构建 准则 之 外 ， 它 们 之 间 的 区 别 与 联系 是 什么 ? 








常会 采 


分 析 与 解答 


首先 ， 我 们 回顾 一 下 这 几 种 决策 树 构造 时 使 用 的 准则 。 
ID3 一 一 最 大 信息 增益 

对 于 样本 集合 D， 类 别 数 为 KR， 数据 集 D 的 经 验 炳 表示 为 
Ci。 El 


H(D)=- Jog, —!, 
(D) Z| os: | 
(3.18) 


其 中 Ck 是 样本 集合 D 中 属于 第 k 类 的 样本 子 集 ，|CW 表 示 该 子 集 的 元 素 个 
数 ，|D| 表 示 样 本 集合 的 元 素 个 数 。 


然后 计算 某 个 特征 A 对 于 数据 集 D 的 经 验 条 件 米 H(DIA) 为 


ID slof $ la [Da 
noja- Pluoy- SIR $ Pag, I) 


(3.19) 


其 中 ，D 表 示 D 中 特征 A 取 第 i 个 值 的 样本 子 集 ，Di 表 示 D; 中 属于 第 k 类 的 
样本 子 集 。 


于 是 信息 增益 g(D,A) 可 以 表示 为 二 者 之 差 ， 可 得 


g(D, A) = H(D)—H(D| A). 


(3.20) 

这 些 定义 听 起 来 有 点 像 绕口令 ， 不 纺 我 们 用 一 个 例 了 来 简单 说 明 下 
计算 过 程 。 假 设 共 有 5 个 人 追求 场景 中 的 女孩 ， 年 龄 
个 属性 〈 帅 ， 一 般 ， 丑 ) ， 工 
， 码 有 两 个 属性 (2, RA) , 
( 见 ， 不 见 )。 我 们 根据 女孩 有 监督 的 主观 


表 3.1 5 个 候 











个 问题 中 ， 
3 
MD) = -3log, 3 -Zlog, 2 2-097, 
根据 式 〈3.19) BTiS haps 





为 
HD ER) = HGO +4 HCE) 


[Wer en (csr ae eee 
=} -0y+4{ Fog, 2-24, 2) = 08 


HUD | EA) = LH) +3 HAR) HC) 
Ho 24 2 
-oo 了 -os 4} +0=0551 


HODIT = SHC) +L) +2 HE) 


3 


Deeded nal 
=2{ tog, 2—*tog, *|+0+0=0.551 
并 TTS she)" 4 


HOVIRD HEDA) 
-3 20- 
ENRE: 


于 是 ， 根 据 式 〈3.20) 可 计算 出 各 个 特征 的 信息 增益 为 
&(D, 年 龄 ) =0.171, g(D, 长 相 ) = 0.42， 
g(D, 工 资 )= 0.42，g(D, 写 代码 )= 0.971, 
显然 ， 特 征 “ 写 代码 "的 信息 增益 最 大 ， 所 有 的 样本 根据 此 特征 ， 可 
NIEA EEA 《 即 见 或 不 见 ) 中 ， 完 成 决策 树 生长 。 当 然 
际 应 用 中 ， 决 策 树 往往 不 能 通过 一 个 特征 就 完成 构建 ， 需 要 在 经 验 炳 非 
0 的 类 别 中 继续 生长 。 
里 C4.5 一 一 最 大 信息 增益 比 
特征 A 对 于 数据 集 D 的 信息 增益 比 定义 为 


gD, p =8O4 
H,(D), 











(3.21) 
其 中 


lol 
pl, 





(3.22) 


PABEDAN. HI EREM, RITI URHE (3.22) 
REAGERA F EAR E REA A 


E AR VEL EE. 
Hyg (D) = G 3 E le 5r 0.722 


REE D VE aA PAER 
Hey (D) =~ log, 5-7108, 5~ 108, 5 =1371, 


Ser a ae Dale 

Hy (D) = -710g 7-7108 <— slog, 5 =1.371 
Bie eB E E. 

Hyny (D) = ~ 31083 551083 3 = 0971 


于 是 ， 根 据 式 3.21) 可 计算 出 各 个 特征 的 信息 增益 比 为 
8, (D, 4ER?) = 0.236, ga(D, 长 相 ) = 0.402, 
ga(D, 工 资 )= 0.402, gx(D, 写 代码 

益 比 最 大 的 仍 是 特征 * 写 代 









征 "年 i 


m CART- 


最 大 基尼 指数 (Gini) 





Gini ABA, Sie RIL. 


cinio)=1-$1 6) j 





(3.23) 


CART 在 每 一 次 迭代 中 选择 基尼 指数 最 小 的 特征 及 其 对 应 的 切 分 点 
进行 分 类 。 但 与 ID3、C4.5 不 同 的 是 ，CARIT 是 一 颗 二 又 树 ， 采 用 二 元 切 
割 法 ， 每 一 步 将 数据 按 特 征 A 的 取 值 切 成 两 份 ， 分 别 进入 左右 子 树 。 特 
征 A 的 Gini 指 数 定义 为 


Gini(D| 4) = $ Plomo. 
Al 


(3.24) 


还 是 考虑 上 述 的 例子 ， 应 用 CART 分 类 准则 ， 根 据 式 (3.24) 可 计 
算出 各 个 特征 的 Gini 指 数 为 


Gini(D| 年 龄 = 老 )=0.4， Gini(D| 年 龄 = 年 轻 )=0.4， 
Gini(D| 长 相 = 帅 )=0.4， Gini(D| 长 相 = 丑 )=0.4， 
Gini(D| 写 代码 = 会 )=0， Gini(D| 写 代码 = 不 会 )=0， 


Gini(D| 工 资 = 高 )=0.47， Gini(D| 工 资 = 中 等 )=0.3， 


Gini(D| 工 资 = 低 )=0.4. 








通过 对 比 三 种 决策 树 的 构造 准则 ， 以 及 在 同一 例子 上 的 不 同 表现 ， 
我 们 不 难 总 结 三 者 之 间 的 差异 。 


首先 ，ID3 是 采用 信息 增益 作为 评价 标准 ， 除 了 “会 写 代 码 " 这 一 逆 
天 特征 外 ， 会 倾向 于 取 值 较 多 的 特征 。 因 信息 增益 反映 的 是 给 定 条 
件 以 后 不 确定 性 减少 的 程度 ， 特 征 取 值 越 多 就 意味 着 确定 性 更 高 ， 也 就 











LE RIERO ， 但 这 种 分 类 的 泛 化 能 力 是 非 
的 。 因 此 ，C4.5 实 际 上 是 对 ID3 进 行 优化 ， 通 过 YE 一 定 





jk 罚 ， 训 免 ID3 出 现 过 拟 合 的 特性 ， 提 


程度 上 对 取 值 比较 多 的 特征 六 
升 决策 树 的 泛 化 能 力 。 





时 每 
适用 于 :连续 性 Si. 


从 应 用 角度 ，ID3 和 C4.5 只 能 用 于 分 类 任务 ， 而 
CART (Classification and Regression Tree， 分 类 回归 树 ) 从 名 字 就 可 以 
看 出 其 不 仅 可 以 用 于 分 类 ， 也 可 以 应 用 于 回归 任务 〈 回 归 树 使 用 最 小 平 
方 误差 准则 ) 


此 外 ， 从 实现 细节 、 优 化 过 程 等 角度 ， 这 三 种 决策 树 还 有 一 些 不 
同 。 比 如 ，ID3 对 样本 特征 缺失 值 比较 敏感 ， 而 C4.5 和 CART 可 以 对 缺失 
值 进行 不 同方 式 的 处 理 ; ID3 和 C4.5 可 以 在 每 个 结 点 上 产生 出 多 叉 分 
支 ， 且 每 个 特征 在 层级 之 间 不 会 复 用 ， 而 CART 每 个 E 
分 支 ， 因 此 最 后 会 形成 一 里 二 又 树 ， 且 每 个 特征 可 以 被 重 
和 C4.5 通 过 剪 枝 来 权衡 树 的 准确 性 与 泛 化 能 力 ， 而 CART 直 接 利 用 全 部 
数据 发 现 所 有 可 能 的 树 结构 进行 对 比 。 

至 此 ， 我 们 从 构造 、 应 用 、 实 现 等 角度 对 比 了 ID3、C4.5、CART 这 


经 典 的 决策 桂 模型 。 与 联系 总 结 起 来 容易 ， 但 在 实际 应 用 
中 还 需要 读者 慢 慢 体会 ， 针 对 不 同 场景 通 。 


























问题 2 如 何 对 决策 树 进行 剪 枝 ? 








难度 : eeke ree 

全 生长 的 决策 树 会 面临 一 个 很 严重 的 问题 ， 即 过 拟 合 。 假设 

我 们 真 的 需要 考虑 DNA 特 征 ， 由 于 每 个 人 的 DNA 都 全 生长 的 
决策 树 所 对 应 的 每 个 叶 结 点 中 只 会 包含 一 个 样本 ， 导 到 决策 村 是 过 





以 合 的 。 用 它 进行 预测 时 ， 在 测试 集 上 的 效果 将 会 很 差 。 因 此 我 们 需要 


对 决策 树 进行 剪 枝 ， 剪 掉 一 些 枝叶 ， 提 升 模型 的 泛 化 能 力 。 
决策 树 的 剪 枝 通常 有 两 种 方法 ， 预 剪 枝 〈Pre-Pruning) 和 后 剪 枝 


(Post-Pruning) 。 那 么 这 两 种 方法 是 如 何 进行 的 呢 ? 它们 又 各 有 什么 
优 缺 点 ? 


分 析 与 解答 
预 剪 枝 ， 即 在 生成 决策 树 的 过 程 中 提前 停止 树 的 增长 。 而 后 剪 枝 ， 
是 在 已 生成 的 过 拟 合 决策 树 上 进行 剪 枝 ， 得 到 简化 版 的 剪 枝 决策 树 。 
里 预 剪 枝 
预 剪 枝 的 核心 思想 是 在 树 中 结 点 进行 扩展 之 前 ， 先 计算 当前 的 划分 
否 能 带 来 模型 泛 化 能 力 的 提升 ， 如 果 不 能 ， 则 不 再 继续 生长 子 树 。 此 
丛林 能 个 天 丰美 的 样本 同时 存 于 结 点 中 ， 数 投票 的 原则 判断 
该 结 点 所 属 类 别 。 预 前 枝 对 于 何 时 停止 决策 树 的 生长 有 以 下 几 种 方法 。 
CL) 当 树 到 达 一 定 深度 的 时 候 ， 停 止 树 的 生长 。 
re (2) 当 到 达 当 前 结 点 的 样本 数量 小 于 某 个 阔 值 的 时 候 ， 停 止 树 的 
长 。 








(3) 计算 每 次 分 型 对 测试 集 的 准确 度 提升 ， 当 小 于 某 个 阔 值 的 时 
候 ， 不 再 继续 扩展 。 


预 剪 枝 具 有 思想 直接 、 算 法 简单 、 效 率 高 等 特点 ， 适 合 解决 大 规模 
问题 。 但 如 何 准确 地 估计 何 时 停止 树 的 生长 方法 中 的 深度 或 阅 
值 )， 针 对 不 同 问题 会 有 很 大 差别 ， 需 要 一 定 经 验 判 断 。 且 预 剪 枝 存在 
一 定局 限 性 ， 有 欠 拟 合 的 风险 ， epee 
低 ， 但 在 之 后 的 划分 中 ， 准 确 率 可 能 会 有 显著 上 升 。 


DEE i:a 
后 剪 枝 的 核心 思想 是 让 算法 生成 一 棵 完全 生长 的 决策 树 ， 然 后 从 最 


底层 向 上 计算 是 否 剪 枝 。 剪 枝 过 程 将 子 树 删除 ， 用 一 个 叶子 结 点 蔡 代 ， 
该 结 点 的 类 别 同样 按照 多 数 投票 的 原则 进行 判断 。 同 样 地 ， 后 前 村 也 可 





以 通过 在 测试 集 上 的 准确 率 进行 判断 ， 如 果 剪 枝 过 后 准确 率 有 所 提升 ， 

则 进行 剪 枝 。 相 比 于 预 剪 枝 ， 后 剪 枝 方法 通常 可 以 得 到 泛 化 能 力 更 强 的 
决策 树 ， 但 时 间 开销 会 更 大 。 

见 的 后 剪 枝 方法 包括 错误 率 降低 剪 枝 〔(Reduced Error Pruning, 

REP) . {98H (Pessimistic Error Pruning, PEP) 、 代 价 复杂 度 前 枝 
(Cost Complexity Pruning, CCP) 、 最 小 误差 剪 枝 (Minimum Error 
Pruning, MEP) . CVP (Critical Value Pruning) 、 OPP (Optimal 
Pruning) 等 方法 ， 剪 枝 方法 各 有 利弊 ， 关 注 不 同 的 优化 角度 ， 本 文 
选取 著名 的 CART 剪 枝 方法 CCP 进 行 介绍 。 


代价 复杂 剪 枝 主要 包含 以 下 两 个 步骤 。 
(1) 从 完整 决策 树 To 开 始 ， 生 成 一 个 子 树 序列 {ToT5T2…,Tn}j， 其 
中 Ta 由 卫生 成 ，T 为 树 的 根 结 
(2) 在 子 树 序列 中 ， 根 据 真 实 误差 选择 最 佳 的 决策 树 。 
步骤 (1) 从 To 开始 ， 裁 剪 Ti 中 关于 训练 数据 集合 误差 增加 最 小 的 分 
支 以 得 到 Ti。 具 体 地 ， 当 一 棵 树 T 在 结 点 t 处 剪 枝 时 ， 它 的 误差 增加 可 
以 用 R(D-R(I) 表 示 ， 其 中 R(D 表 示 进 行 剪 枝 之 后 的 该 结 点 误差 ，R(I) 表 
示 未 进行 剪 枝 时 子 树 TI 的 误差 。 考 虑 到 树 的 复杂 性 因素 ， 我 们 用 |L(T)| 表 
示 子 树 了 Ti 的 叶子 结 点 个 数 ， 则 树 在 结 点 处 剪 枝 后 的 误差 增加 率 为 
a- RO-RT) 
Iu-1 . 

















(3.25) 
在 得 到 T; 后 ， 我 们 每 步 选 择 a 最 小 的 结 点 进行 相应 剪 枝 。 
用 一 个 例子 简单 地 介绍 生成 子 树 序列 的 方法 。 假 设 把 场景 中 的 问题 
进行 一 定 扩展 ， 女 孩 需要 对 80 个 人 进行 见 或 不 见 的 分 类 。 假 设 根据 某 种 
规则 ， 已 经 得 到 了 一 棵 CART 决 策 树 To， 如 图 3.15 所 示 。 


此 时 共 5 个 内 部 结 点 可 供 考虑 ， 其 中 


25-5 
t= = 
We 


a) = 9 93 





FY Mo (ty) 最 小 ， 因 此 对 3 进行 剪 枝 ， 得 到 新 的 子 树 T,， 如 图 3.16 





OD o Em 


315 ”初始 决策 树 TD 


«gD 


图 3.16 对 初 妈 决 策 树 To 的 t3 结 点 前 被 得 到 新 的 子 树 T 


而 后 继续 计算 所 有 结 点 对 应 的 误差 增加 率 ， 分 别 为 att 








， 选 择 ty 进行 剪 枝 ， 得 到 T3。 于 是 只 剩 下 一 个 内 部 结 
得 到 Ty。 


在 步骤 (2) 中， 我 们 需要 从 子 树 序列 中 选 出 真实 误差 最 小 的 决策 
树 。CCP 给 出 了 两 种 常用 的 方法 ， 一 种 是 基于 k 
与 REP 类 似 ， 但 由 于 其 只 能 从 子 树 序列 {To,TDT 
树 ， 而 非 像 REP 能 在 所 有 可 能 的 子 树 中 寻找 最 优 因此 性 能 
定 不 足 。 另 一 种 是 基于 k 折 交叉 验证 ， 将 数据 集 分 成 k 份 ， 前 k-1 份 用 于 
生成 决策 树 ， 最 后 一 份 用 于 选择 最 优 的 剪 枝 树 。 重 复 进行 N 次 ， 再 从 这 
个 子 树 中 选择 最 优 的 子 树 
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代价 复杂 度 剪 枝 使 用 交叉 验证 策略 时 ， 不 需要 测试 数据 集 ， 精 度 与 
REP 差 不 多 ， 但 形成 的 树 复杂 度 小 。 而 从 算法 复杂 度 角度 ， 由 于 生成 子 
树 序列 的 时 间 复 杂 度 与 原始 决策 树 的 非 叶 结 点 个 数 呈 二 次 关系 ， 导 致 算 
法 相 比 REP、PEP、MEP 等 线性 复杂 度 的 后 剪 枝 方法 ， 运 行 时 间 开 销 更 
大 。 





剪 枝 过 程 在 决策 树 模型 中 占据 着 极其 重要 的 地 位 。 有 很 多 研究 表 
明 ， 剪 枝 比 树 的 生成 过 程 更 为 关键 。 对 于 不 同 划分 标准 生成 的 过 拟 合 决 
策 树 ， 在 经 过 前 枝 之 后 都 能 保留 最 重要 的 属性 划分 此 最 终 的 性 能 其 
理解 剪 枝 方法 的 理论 ， 在 : 应 用 中 根据 的 数据 类 型 
定 使 用 何 种 决策 桂 以 及 对 应 的 前 枝 策略 ， 灵 活 变通 ， 找 到 最 优 















选择 ， 是 本 节 想 要 传达 给 读者 的 思想 。 
过问 趣事] 


奥 卡 姆 市 刀 定 律 (Occam's Razor, Ockham’s Razor) 


14 世 纪 ， 让 辑 学 家 、 圣 方 济 各 会 悠 十 奥 卡 姆 威廉 《William of Occam) 提出 奥 卡 姆 
制 刀 定律 。 这 个 原理 最 简单 的 措 述 是 * 如 无 必要 ， 勿 增 实体 "， 即 “简单 有 效 原理 *。 


很 多 人 误解 了 奥 卡 姆 草 刀 定律 ， 认 为 简单 就 一 定 有 效 ， 但 奥 卡 姆 草 刀 定律 从 来 没有 
说 "简单 "的 理论 就 是 "正确 "的 理论 ， 通 常 表述 为 " 当 两 个 假说 具有 完全 相同 的 解释 力 和 预 
测 力 时 ， 我 们 以 那个 较为 简单 的 假说 作为 讨论 依据 ” 


奥 卡 姆 章 刀 的 思想 其 实 与 机 器 学 习 消除 过 拟 合 的 思想 是 一 至 的。 特别 是 在 决策 村 区 
枝 的 过 程 中 ， 我 们 正 是 希望 在 预测 力 不 减 的 同时 ， 用 一 个 简单 的 模型 去 葵 代 原来 复杂 的 
模型 而 在 ID3 决 策 树 算法 提出 的 过 程 中 ， 模 型 的 创建 者 Ross “Quinlan 也 确实 参照 了 奥 卡 
姆 制 刀 的 思想 。 美 似 的 思想 还 同样 存在 于 神经 网 络 的 Dropout 的 方法 中 ， 我 们 降低 模型 复 
杂 度 ， 为 的 是 提高 模型 的 泛 化 能 力 。 


严格 讲 ， 奥 卡 姆 制 刀 定律 不 是 一 个 定理 ， 而 是 一 种 思考 问题 的 方式 。 我 们 面 对 任 何 
工作 的 时 候 ， 如 果 有 一 个 简单 的 方法 和 一 个 复杂 的 方法 能 够 达到 同样 的 效果 ， 我 们 应 该 
选择 简单 的 那个 。 因 为 简单 的 选择 是 巧合 的 几率 更 小 ， 更 有 可 能 反应 事物 的 内 在 规律- 





第 4 章 ” 降 维 


ewe ， 是 时 间 和 空间 的 总 和 。 时 间 是 一 维 的 ， 而 空间 的 维度 ， 众 说 
i 霍金 所 认同 的 M 理 论 则 认为 是 
| ee 
谈 及 这 些 并 不 是 为 了 推荐 《三 体 》 系 

ai, 甚至 怀疑 人 生 本 质 ， cee 












的 数据 维 数 与 现实 世界 的 空间 维度 本 同 末 离 。 在 机 器 学 
被 表示 成 向 量 形式 以 输入 模型 进行 训练 。 但 众 所 周 
理 和 分 析 时 ， R 厌 ， 其 至 产生 

和 时， 即 用 一 个 低 维度 的 向 量 表示 原 高 维度 的 

特征 就 是 得 尤为 重要 。 常 见 的 降 维 方法 有 主 成 分 分 析 、 线 性 判别 分 析 、 

等 距 映射 、 局 部 线性 嵌入 、 拉 普 拉 斯 特征 映射 、 局 部 保留 投影 等 。 本 章 

将 选取 比较 经 典 的 主 成 分 分 析 和 线性 判别 分 析 进 行 介绍 和 对 比 ， 以 便 读 

者 更 深入 地 理解 降 维 的 基本 思想 。 











01 PCA 最 大 方差 理论 


场景 描述 


在 机 器 学 习 领 域 中 ， 我 们 对 原始 数据 进行 特征 提取 ， 有 时 会 得 到 比 
较 高 维 的 特征 向 量 。 在 这 些 向 量 所 处 的 高 维 空间 中 ， 包 含 很 多 的 宛 余 和 
噪声 。 我 们 希望 通过 降 维 的 方式 来 寻找 数据 内 部 的 特性 ， 从 而 提升 特征 
表达 能 力 ， 降 低 训 练 复杂 度 。 主 成 分 分 析 (Principal Components 
Analysis, PCA) 作为 降 维 中 最 经 典 的 方 今 已 有 100 多 年 的 历史 ， 
它 属于 一 种 线性 、 非 监督 、 全 局 的 降 维 算法 ， 是 面试 中 经 常 被 问 到 的 问 
题 。 








知识 点 
PCA， 线 性 代数 
问题 如何 定 义 主 成 分 ? 从 这 种 定义 出 发 ， 如 何 设计 目 


标 函 数 使 得 降 维 达到 提取 主 成 分 的 目的 ? 针对 这 个 目标 
函数 ， 如 何 对 PCA 问 题 进行 求解 ? 





难度 交友 立交 六 
分 析 与 解答 


PCA 旨 在 找到 数据 中 的 主 成 分 ， 并 利用 ii EERIE RARE, 
| 降 维 的 目的 。 举 一 个 简单 的 例子 间 中 有 一 系列 数据 
i ， 这些 点 分 布 在 一 个 过 原点 的 平面 上 。 如 果 我 们 用 自然 坐标 系 xwy,z 三 










个 轴 来 表示 数据 ， 就 需 
个 二 维 平面 上 ， 如 果 我 人 
重合 ， 那 么 
何 损失 ， 这 样 
们 要 找到 的 主 成 分 。 
但 在 高 维 空间 中 ， 我 们 往往 不 能 像 刚 才 这 样 直 观 地 想象 出 数据 的 分 
布 形式 ， 也 就 更 难 精确 地 : 成 分 对 应 的 轴 是 哪些 。 不 妨 ， 我 们 先 从 
最 简单 的 二 维 数据 来 看 看 PCA 究 竟 是 如 何 工作 的 ， 如 图 4.1 所 示 。 
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(a) 二 维 室 间 中 经 过 中 心 化 的 一 组 数据 
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C) 该 组 数据 的 主 成 分 


图 4.1 二 维 空间 数据 主 成 分 的 直观 可 视 化 


图 4.1 (a) 是 二 维 空间 中 经 过 中 心 化 的 一 组 数据 ， 我 们 很 容易 看 出 
Pye 1 OL FRONTED 的 大 致 方向 ， 即 图 4.1 Cb) 中 黄 线 所 
处 的 轴 。 因 为 在 黄 线 所 处 的 轴 上 ， 数 据 分 布 得 更 为 分 散 ， 这 也 意味 着 数 
据 在 这 个 方向 上 方差 更 大 。 在 信号 处 理 领域 ， 我 们 认为 
差 ， 噪 声 具 有 较 小 方差 ， 信 号 与 噪声 之 比 称 为 信 品 比 
着 数据 的 质量 越 好 ， 反 之 ， 信 噪 比 越 小 意味 着 数据 的 质量 越 差 。 由 此 我 
们 不 难 引出 PCA 的 目标 ， 即 最 大 化 投影 方差 ， 也 就 是 让 数据 在 主轴 上 投 
影 的 方差 最 大 。 








对 于 给 定 的 一 组 数据 点 他 > 呈 …，5}， 其 中 所 有 向 量 均 为 列 向 量 
aA IEA IIT Has j MaMa — Maney My SEH" 
我 们 知道 ， 向 量 内 积 在 几何 上 表示 为 第 一 个 向 量 投影 到 第 二 个 向 量 上 的 
长 度 ， 因 此 向 量 xi 在 @ 《单位 方向 向 量 ) 上 的 投影 坐标 可 以 表示 为 
Œo) =x O. FAHRER -AEE o, EEEo k 
的 投影 方差 尽 可 能 大 。 易 知 ， 投 影 之 后 均值 为 0 (因为 

lo /iY | 
Per Jo 0 


此 投影 后 的 方差 可 以 表示 为 





， 这 也 是 我 们 进行 中 心 化 的 意义 ) ， 因 





= Do Go 





(4.1) 


1S, 
i a 2 Be 我 们 将 其 写作 
E 另外， 由 于 是 单位 方向 向 量 ， 即 有 wTw=1。 因 此 我 们 要 求解 一 个 最 
大 化 间 题 ， 可 表示 为 


max{o' Zo}, 
st. wm=1. 


(4.2) 
ka ERANA: 并 对 aw 求 导 令 其 等 于 0， 便 可 以 推出 Z wA w, 


DJ=orzo=4oro=1. 
(4.3) 

熟悉 线性 代数 的 读者 马上 就 会 发 现 ， 原 来 ，x 投 影 后 的 方差 就 是 协 
方差 矩阵 的 特征 值 。 我 们 要 找到 最 大 的 方差 也 就 是 协 方差 甜 阵 最 大 的 特 
征 值 ， 最 佳 投影 方向 就 是 最 大 特征 值 所 对 应 的 特征 向 量 。 次 佳 投影 方向 
位 于 最 佳 投影 方向 的 正 交 空间 中 ， 是 第 二 大 特征 值 对 应 的 特征 向 量 ， 以 
此 类 推 。 至此， 我们 得 到 以 下 几 种 PCA 的 求解 方法 。 

(1) 对 样本 数据 进行 中 心 化 处 理 。 

(2) 求 样本 协 方差 矩阵 。 

(3) 对 协 方差 矩阵 进行 特征 值 分 解 ， 将 特征 值 从 大 到 小 排列 。 


CA) 取 特征 值 前 d 大 对 应 的 特征 向 量 @1,w2,…,wg， 通 过 以 下 映射 
将 n 维 样本 映射 到 d 维 
ox, 
PALOI 

o'x, |, 


(4.4) 


新 的 x 的 第 d 维 就 是 xi 在 第 d 个 主 成 分 ou 方向 上 的 投影 ， 通 过 选取 最 
大 的 d 个 特征 值 对 应 的 特征 向 量 ， 我 们 将 方差 较 小 的 特征 〈 噪 声 ) 抛 
弃 ， 使 得 每 个 n 维 列 向 量 x; 被 映射 为 d 维 列 向 量 xi;， 定 义 降 维 后 的 信息 占 


比 为 





(45) 
BESTE 


至 此 ， 我 们 从 最 大 化 投影 方差 的 角度 解释 了 PCA 的 原理 、 目 标 函 数 
和 求解 方法 。 其 实 ，PCA 还 可 以 用 其 他 思路 进行 分 析 ， 比 如 从 最 小 回归 
误差 的 角度 得 到 新 的 目标 函数 。 但 最 终 我 们 会 发 现 其 对 应 的 原理 和 求解 
方法 与 本 文中 的 是 等 价 的 。 另 外 ， 由 于 PCA 是 一 种 线性 降 维 方法 ， 虽 然 
经 典 ， 但 具有 一 定 的 局 限 性 。 我 们 可 以 通过 核 映 射 对 PCA 进 行 扩展 得 到 
核 主 成 分 分 析 (KPCA) ， 也 可 以 通过 流 形 映 射 的 降 维 方法 ， 比 如 等 距 
映射 、 局 部 线性 嵌入 、 拉 普 拉 斯 特征 映射 等 ， 对 一 些 PCA 效 果 不 好 的 复 
杂 数 据 集 进 行 非 线性 降 维 操作 。 


02 ”了 PCA 最 小 平方 误差 理论 


场景 描述 


上 一 节 介 绍 了 从 最 大 方差 的 角度 解释 PCA 的 原理 、 目 标 函 数 和 求解 
方法 。 本 节 将 通过 最 小 平方 误差 的 思路 对 PCA 进 行 推导 。 


知识 点 
线性 代数 ， 最 小 平方 误差 


问题 PCA 求 解 的 其 实 是 最 佳 投影 方向 ， 即 一 条 直线 
这 与 数学 中 线性 回归 问题 的 目标 不 谋 而 合 ， 能 否 从 回归 
的 角度 定义 PCA 的 目标 并 相应 地 求解 问题 呢 ? 









HEBE: dedere vere 

分 析 与 解答 
我 们 还 是 考虑 二 维 空间 中 的 样本 点 ， 如 图 4.2 所 示 。 上 一 节 求解 得 
二 条 直线 使 得 样本 点 投影 到 该 直线 上 的 方差 最 大 。 从 求解 直线 的 思路 





oe 很 容易 联想 到 数学 中 的 线性 回归 其 目标 也 是 求解 一 个 线性 
BERAIN PARTEIEN ACR dk 如 果 我 们 从 这 个 角度 定 
义 PCA 的 目标 ， 那 么 问题 就 会 转化 为 一 个 回归 问题 。 


顺 着 这 个 思路 ， 在 高 维 空间 中 ， 我 们 实际 上 是 要 找到 一 个 d 维 超 平 
面 ， 使 得 数据 点 到 这 个 超 平面 的 距离 平方 和 最 小 。 以 d=1 为 例 ， 超 平面 





退化 为 直线 ， 即 把 样本 点 投影 到 最 佳 直线 ， 最 小 化 的 就 是 所 有 点 到 直线 


的 距离 平方 之 和 ， 如 图 4.3 所 示 。 
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图 42 二 维 空间 中 经 过 中 心 化 的 一 组 数据 
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图 43 最 小 化 样本 点 到 直线 的 距离 下 方 之 和 


数据 集中 每 个 点 x 到 d 维 超 平面 D 的 距离 为 


distance(x,,D)=|\ x, — ll 


(4.6) 





KPEE AED EBEE OUR ARE Td E 
ZEIEN = (0,5. HH) MR, RAE ALTE (CL IO eT DA iX H ER HE: 


So's Jo, 











(4.7) 


T RTEA LEIAKIE. DALI, SBR babi, Ze Wik 
E 正 交 基 下 的 坐标 。 而 PCA 要 优化 的 目标 为 





arg min > || x, =x; |b, 


Denisi 





(4.8) 


ue te RETRE m, FERR (4.8) 中 的 
每 一 个 距离 展开 


[El 








EN BEAR 
u E 
(4.9) 
SEH — ie EWER, EAER HR 4.7) 代入 式 
49) 的 第 二 项 和 第 三 项 可 得 到 


PAE 








(4.10) 





Yes | (Se,] 
S 站 om Jw] (@,"x,)@,) 
(4.11) 


注意 到 ， 其 中 @7 xO, xu 表示 投影 长 度 ， 都 是 数字 。 且 当 冯 时 ， 
=0 因此 式 〈4.11) 的 交叉 项 中 只 剩 下 项 





x 





Loxo oxo) = Lie! Ko!) 


-Josx 





(4.12) 


seal, DON 实际 上 就 是 矩阵 W TWE (对 角 线 元 素 
之 和 ) ， 于 是 可 以 将 式 (4.9) 继续 化 简 





a 
ze Ge 
lx -x = Do xx" @, + x 


各 


=x XW) Ex x, 
(4.13) 
因此 式 〈4.8) 可 以 写成 


arg min $ lx, RB B= er" ax W) x) 





=$ pW nx W)+C 


(4.14) 
mpeane DAS TO, aeaaaee 
memes IOS) aaa re NRA ERC 
i max ir" XXW) , 
s. WW=l. 
(4.15) 


如 果 我 们 对 W 中 的 d 个 基 @,,@;,…,@, 依 次 求解 ， 就 会 发 现 和 最 大 方差 
理论 的 方法 完全 等 价 。 比 如 当 d=1 时 ， 我 们 实际 求解 的 问题 是 


arg max OT XX", 
st @'@=1 
(4.16) 


SRE Aco 5 Bt Ky FEDORA LI EBL Ta BB I 
FEAR EA ITT ELAR AE DE, EEA EEE AE 


ere ene eee Cine 
:总结 与 扩展 
至 此 ， 我 们 从 最 小 平方 误差 的 角度 解释 了 PCA 的 原理 、 目 标 函 数 和 


求解 方法 。 不 难 发 现 ， 这 与 最 大 方差 角度 殊途同归 ， 从 不 同 的 目标 函数 
出 发 ， 得 到 了 相同 的 求解 方法 。 


03 线性 判别 分 析 


经 常 被 用 来 对 数据 进行 降 维 。 它 是 Ronald Fisher 在 1936 
上 也 称 之 为 Fisher LDA (Fisher’s Linear 
Discriminant Analysis) 。LDA 是 目前 机 器 学 习 、 数 据 挖掘 领域 中 经 典 且 
热门 的 一 种 算法 。 


相 比 于 PCA，LDA 可 以 作为 一 种 有 监督 的 降 维 算法 。 在 PCA 中 ， 算 
al a 标签 〈 类 别 ) ， 只 是 把 原 数据 映射 到 一 些 方差 比较 大 
的 方向 上 而 已 。 


假设 用 不 同 的 颜色 标注 Cry、Cz 两 个 不 同类 别 的 数据 ， 如 图 4.4 所 
示 。 根 据 PCA 算 法 ， 数 据 应 该 映射 到 方差 最 大 的 那个 方向 ， 亦 即 y 轴 方 
向 。 但 是 ，Ci，C2 两 个 不 同类 别 的 数据 就 会 完全 混合 在 一 起 ， 很 难 区 分 
He 所 以 ， 使 用 PCA 算 法 进行 降 维 后 再 进行 分 类 的 效果 会 非 但 

如 果 使 用 LDA 算 法 ， 数 据 会 映射 到 x 轴 方向 。 那 么 ，LDA 算 法 究竟 
是 如何 做 到 这 一 点 的 呢 ? 




















图 4.4 两 个 不 同类 别 的 数据 
知识 点 
线性 代数 ，LDA 


问题 对 于 具有 类 别 标签 的 数据 ， 应 当 如 何 设计 目标 函 





数 使 得 降 维 的 过 程 中 不 损失 类 别 信息 ? 在 这 种 目标 下 ， 
应 当 如 何 进行 求解 ? 





难度 : kti 
分 析 与 解答 


LDA 首 先是 为 了 分 类 服务 的 ， 因 此 只 要 找到 一 个 投影 方向 a， 使 得 
投影 后 的 样本 尽 可 能 按照 原始 类 别 分 开 。 我 们 不 妨 从 一 个 简单 的 二 分 类 


1 


Ma yx 
问题 出 发 ， 有 Ci、Cz 两 个 类 别 的 样本 ， 两 类 的 均值 分 别 为 Ni fc 
1 
m= x i 
K Na eC, .我们 希望 投影 之 后 两 类 之 间 的 距离 尽 可 能 大 ， 距 离 表 
不 


DGC) =|| 4 =m lÈ 
(4.17) 
其 中 向 ， 记 表示 两 类 的 中 心 在 @ 方 向 上 的 投影 向 量 ， m=O", m=O" py 
， 因 此 需要 优化 的 问题 为 
max |o" (m =m) 5 
st. @@=1. 
(4.18) 


容易 发 现 ， 当 @ 方 向 与 Gu) 一致 的 时 候 ， 该 距离 达到 最 大 值 ， 
例如 对 图 4.5 Ca) 的 黄 棕 丙种 类 别 的 样本 点 进行 降 维 时 ， 若 按照 最 大 化 

投影 中 心 距离 的 准则 ， 会 将 样本 点 投影 到 下 方 的 黑 线 上 。 但 是 原本 
ri SOBRE, IBH SSE REEL, XR 
不 能 使 我 们 满意 。 


我 们 希望 得 到 的 投影 结果 如 图 4.5(b》 所 示 ， 虽 然 两 类 的 中 心 在 投 
影 之 后 的 距离 有 所 减 小 ， 但 确 使 投影 之 后 样本 的 可 区 分 性 提高 了 。 


仔细 观察 两 种 投影 方式 的 区 别 ， 可 以 发 现 ， 在 图 4.5 b) 中 ， 投 影 
后 的 样本 点 似乎 在 每 一 类 中 分 布 得 更 为 集中 了 ， 用 数学 化 | 述 就 
是 每 类 内 部 的 方差 比 左 图 中 更 小 。 这 就 引出 了 LDA 的 中 4 最 大 
化 类 间距 离 和 最 小 化 类 内 距离 。 
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O 使 得 投影 后 样本 区 分 性 和 

图 4.5 两 种 不 同 的 投影 方向 与 

在 前 文中 我 们 已 经 找到 了 使 得 类 间距 离 尽 可 能 大 的 投影 方式 ， 现 在 

只 需要 同时 优化 类 内 方差 ， 使 其 尽 可 能 小 。 我 们 将 整个 数据 集 的 类 内 方 

差 定义 为 各 个 类 分 别 的 方差 之 和 ， 将 目标 函数 定义 为 类 间距 离 和 类 内 距 
离 的 比值 ， 于 是 引出 我 们 需要 最 大 化 的 目标 


lo (a, =n) 
D+D, 






的 分 类 结果 





max J(@) = 


其 中 @ 为 单位 向 量 ，Di，D2 分 别 表 示 两 类 投影 后 的 方差 


Ne 


Eo (x-man) 0 


Ezd ， 


D, = Ya" (x— Hy \(x- Mz)" @ 


et > 


因此 J(o) 可 以 写成 


Om = MaMa = HO 


os A 


定义 类 间 散 度 矩 阵 88 = (4 — aa, — Ma), FS PN MEERE 
STG 
C422) 可 以 写 为 

o'S,0 


FOr 
OTS 





我 们 要 最 大 化 Jo)， 只 需 对 o 求 偏 导 ， 并 令 导 数 等 于 零 





(4.19) 


(4.20) 


(4.21) 


(4.22) 


(4.23) 


(4.24) 


(0'S,0)8,0=(0'S,0)S,0 


(4.25) 
由 于 在 简化 的 二 分 类 问题 中 wTSww 和 wTSgw 是 两 个 数 ， 我 们 令 
OSs0 
ed Te i 
OS, FEIER (4.25) 写成 如 下 形式 : 
$0=45,.0 (4.26) 
整理 得 ， 
S, S,0= ho 
(4.27) 


从 这 里 我 们 可 以 看 出 ， 我 们 最 大 化 的 目标 对 应 了 一 个 矩阵 的 特征 
值 ， 于 是 LDA 降 维 变 成 了 一 个 求 矩 阵 特征 向 量 的 问题 。J(o) 就 对 应 了 和 矩 
阵 Sw-!Ss 最 大 的 特征 值 ， 而 投影 方向 就 是 这 个 特征 值 对 应 的 特征 向 量 。 


对 于 二 分 类 这 一 问题 ， 由 于 S 玉 (一生 XA -人 万 因此 Sa@ 的 方向 始 
AS (uw) 一 致 ， 如 果 只 考虑 @ 的 方向 ， 不 考虑 其 长 度 ， 可 以 得 到 @ 
= SAA 一 人 2 )， 换 句 话 说， 我 们 只 需要 求 样本 的 均值 和 类 内 方差 ， 就 
IDL AREER BRR lo 这 便 是 Fisher 在 1936 年 提出 的 线性 判别 
分 析 。 


Ba STR 


至 此 ， 我 们 从 最 大 化 类 间距 离 、 最 小 化 类 内 距离 的 思想 出 发 ， 推 导 
出 了 LDA 的 优化 目标 以 及 求解 方法 。Fisher LDA 相 比 PCA 更 善于 对 有 类 
别 信息 的 数据 进行 降 维 处 理 ， 但 它 对 数据 的 分 布 做 了 展 强 的 假设 ， 
例如 ， 每 个 类 数据 都 是 高 斯 分 布 、 各 个 类 的 协 方差 相 尽管 这 些 假 设 
在 实际 中 并 不 一 定 完全 满足 ， 但 LDA 已 被 证 明 是 非常 一 种 降 维 方 
法 。 主 要 是 因为 线性 模型 对 于 噪声 的 鲁 棒 性 比较 好 ， 但 由 于 模型 简单 ， 
表达 能 力 有 一 定局 限 性 ， 我 们 可 以 通过 引入 核 函数 扩展 LDA 方 法 以 处 理 












04 线性 判别 分 析 与 主 成 分 分 析 


场景 描述 


同样 作为 线性 降 维 方法 ，PCA 是 有 监督 的 降 维 算法 ， 而 LDA 是 无 监 
督 的 降 维 算法 。 虽 然 在 原理 或 应 用 方面 二 者 有 一 定 的 区 别 ， 但 是 从 这 两 
种 方法 的 数学 本 质 出 发 ， 我 们 不 难 发 现 三 者 有 很 多 共通 的 特性 。 








知识 点 
线性 代数 ，PCA，LDA 
问题 LDA 和 PCA 作 为 经 典 的 降 维 算 法 ， 如 何 从 应 用 的 


角度 分 析 其 原理 的 异同 ? 从 数学 推导 的 角度 ， 两 种 降 维 
算法 在 目标 函数 上 有 何 区 别 与 联系 ? 


难度 : kedet tr 
分 析 与 解答 


首先 将 LDA 扩 展 到 多 类 高 维 的 情况 ， 以 和 问题 1 中 PCA 的 求解 对 
应 。 假 设 有 N 个 类 别 ， 并 需要 最 终 将 特征 降 维 至 d 维 。 因 此 ， 我 们 要 找到 
一 个 d 维 投影 超 平面 所 = {@,,@,,…,@s})， 使 得 投影 后 的 样本 点 满足 LDA 的 
目标 一 一 最 大 化 类 间距 离 和 最 小 化 类 内 距离 。 





回顾 两 个 散 度 矩阵 ， 类 内 散 度 矩阵 ACOE ge ses a 
时 仍 满 趾 定义， 而 之 前 丙 类 问题 的 类 问 散 度 和 矩阵 S, = 0n -eA -MTE 


类 别 增加 后 训 






原始 定义 。 图 4.6 是 三 : need 其 中 
Bis Bas Bs} AA 样本 的 中 心 ， 中 心 的 均值 (也 
即 全 部 样本 的 中 心 所 人 BEANN 
的 矩阵 S,， 来 表示 全 局 整体 的 散 度 ， 称 为 全 局 散 度 矩阵 








s= $o mila, =u) 


(4.28) 





图 4.6 三 类 样本 的 分 布 情况 


如 果 把 全 局 散 度 定义 为 类 内 散 度 与 类 间 散 度 之 和 ， 即 S=Su+Sw， 那 
么 类 间 散 度 矩 阵 可 表示 为 





Be -Eap 
-2 (m, -aa =, D 


(4.29) 


其 中 中 是 第 个 类 别 中 的 样本 个 数 ，N 是 总 的 类 别 个 数 。 从 式 〈《4.29) 可 
以 看 出 ， 类 间 散 度 表示 的 就 是 每 个 类 别 中 心 到 全 局 中 心 的 一 种 加 权 距 
离 。 我 们 最 大 化 类 间 散 度 实际 上 优化 的 是 每 个 类 别 的 中 心经 过 投影 后 离 
全 局 中 心 的 投影 足够 远 。 


根据 LDA 的 原理 ， 可 以 将 最 大 化 的 目标 定义 为 


_ (WT SW) 
(WT SW), 





JW) 


(4.30) 


其 中 W 是 需要 求解 的 投影 超 平面 ，WT W=I， 根 据 问题 2 和 问题 3 中 的 部 
分 结论 ， 我 们 可 以 推导 出 最 大 化 KW) 对 应 了 以 下 广义 特征 值 求解 的 问题 


S,0=AS,o, 


(431) 





求解 最 佳 投影 平面 W = .sj 即 求解 Sa 5, 短 阵 特征 什 前 d 大 
对 应 的 特征 向 量 组 成 的 矩阵 ， 原始 的 特征 空间 投影 到 了 新 的 d 维 
空间 中 。 至 此 我 们 得 到 了 与 PCA 步 又 类 似 ， 但 具有 多 个 类 别 标签 高 维 数 
据 的 LDA 求 解 方法 。 


(1) 计算 数据 集中 每 个 类 别 样本 的 均值 向 量 py， 及 总 体 均值 向 量 





(D 计算 类 内 散 度 算 阵 5。， 全 局 散 度 算 阵 S$,， 并 得 到 类 间 散 度 答 
ESES, -Sn 


(3) 对 矩阵 5S.5, 进 行 特征 值 分 解 ， 将 特征 值 从 大 到 小 排列 。 


C4) 取 特征 值 前 d 大 的 对 应 的 特征 向 量 @,@，…@s， 通 过 以 下 映射 
将 n 维 样本 映射 到 d 维 


(4.32) 


从 PCA 和 LDA 两 种 降 维 方法 的 求解 过 程 来 看 ， 它 们 确实 有 着 很 大 的 
相似 性 ， 但 对 应 的 原理 却 有 所 区 别 。 


首先 从 目标 出 发 ， Sp ae aap a a te ae ae 由 于 
它 是 无 监督 的 ， 因 此 PCA 假 设 方差 越 大 
Ste ASR UT DLE ARAM, SE 
方差 小 、 类 间 方 差 大 的 方向 。 其 用 到 了 类 别 标 : L ATRASE H 
具有 判别 性 的 维度 ， 使 得 原始 数据 在 这 些 方向 上 投影 后 ， 不 同类 别 尽 可 
能 区 分 开 。 


举 一 个 简单 的 例子 ， 在 语音 识别 中 ， 我 们 想 从 一 段 音频 中 提取 出 人 
的 语音 信号 ， 这 时 可 以 使 用 PCA 先 进行 降 掉 St pares H 
差 较 小 ) 的 背景 噪声 。 但 如 果 我 们 的 需求 是 从 音 
于 哪个 人 ， aL 数据 进行 降 维 ， 使 每 个 人 的 
号 具有 区 分 性 


另外 ， 在 人 脸 识别 领域 中 ，PCA 和 LDA 都 会 被 频繁 使 用 。 基 于 PCA 
的 人 脸 识 别 方法 也 称 为 特征 脸 CBigenface) 方法 ， 该 方法 将 人 脸 图 像 按 
行 展开 形成 一 个 高 维 向 量 ， 对 多 个 人 脸 特 征 的 协 方差 矩阵 做 特征 值 分 
解 ， 其 中 较 大 特征 值 对 应 的 特征 向 量具 有 与 人 脸 相似 的 形状 ， 故 称 为 特 
fEl. Eigenface for Recognition 一 文中 将 人 脸 用 7 个 特征 脸 表示 《〈 见 图 
4.7) ， 于 是 可 以 把 原始 65536 维 的 图 像 特 征 瞬 间 降 到 7 维 ， 人 脸 识别 在 
降 维 后 的 空间 上 进行 。 然 而 由 于 其 利用 PCA 进 行 降 维 ， 一 般 情况 下 保留 
的 是 最 佳 描述 特征 〔 主 成 分 ) ， 而 非 分 类 特征 。 如 果 我 们 想 要 达到 更 好 
的 人 脸 识别 效果 ， 应 该 用 LDA 方 法 对 数据 集 进行 降 维 ， 使 得 不 同人 脸 在 
投影 后 的 特征 具有 一 定 区 分 性 。 










从 训 纺 数据 
得 到 特征 脸 


> 





图 47 基于 PCA 的 降 维 方法 ， 得 到 7 个 特征 脸 


从 应 用 的 角度 ， 我 们 可 以 掌握 一 个 基本 的 原则 一 一 对 无 监督 的 任务 
使 用 PCA 进 行 降 维 ， 对 有 监督 的 则 应 用 LDA。 


“总 结 与 扩展 


Eit, RIME 
和 LDA 这 两 种 经 典 的 
等 方法 对 二 者 分 别 
维 应 用 ， 有 兴趣 | 
降 维 算法 的 实际 应 








第 5 章 ” 非 监督 学 习 


在 实际 工作 中 ， 我 们 经 常会 遇 到 这 样 一 类 问题 : 给 机 器 输入 大 量 的 
特征 数据 ， 并 期 望 机 器 通过 学 习 找到 数据 中 存在 的 某 种 共性 特征 或 者 结 
构 人 例如 ， here 观看 









相 比 于 监督 学 习 ， 非 
算法 模型 来 挖掘 数据 内 
法 : 数据 聚 类 和 特征 









nye 
量 关联 。 > ERTELE Jos 
， 而 特征 变量 关联 则 是 利用 各 种 相关 性 分 析 方 





法 来 找到 变量 之 间 的 关系 。 


01 KARK 


场景 描述 


支持 向 量 机 、 逻 辑 回 归 、 决 策 树 等 经 典 的 机 器 学 习 算 法 主要 用 于 分 
类 问题 ， 即 根据 一 些 已 给 定 类 别 的 样本 ， 训 练 某 种 分 类 器 ， 使 得 它 能 够 
对 类 别 未 知 的 样本 进行 分 类 。 与 分 类 问题 不 同 ， 聚 类 是 在 事先 并 不 知道 
任何 样本 类 别 标签 的 情况 下 ， 通 过 数据 之 间 的 内 在 关系 把 样本 划分 为 若 
干 类 别 ， 使 得 同类 别 样本 之 间 的 相似 度 高 ， 不 同类 别 之 间 的 样本 相似 度 
低 。 图 5.1 是 一 个 二 维 空间 中 样本 聚 类 的 示意 图 ， 图 5.1 a) 展示 了 所 有 
eae RENAT 图 5.1 (b) ERT ERIE CADE RES 
同 i|) 




















saren (o) ms 





图 5.1 E 





at 
Hew) = Sx =u, È 


(5.1) 


其 中 代表 第 个 样本 ，ci 是 x 所 属于 的 禾 ，jpc; 代 表 簇 对 应 的 中 心 点 ，M 是 
样本 总 数 。 


知识 点 


均值 聚 类 算法 ，ISODATA 算 法 ，EM 算 法 〔(Expectation- 
Maximization Algorithm， 最 大 期 望 算法 ) 


问题 1 简 述 K 均 值 算法 的 具体 步 又 。 


难度 : kti 
分 析 与 解答 


K 均 值 聚 类 的 核心 目标 是 将 给 定 的 数据 集 划分 成 K 个 簇 ， 并 给 出 每 
个 数据 对 应 的 簇 中 心 点 。 算 法 的 具体 步 又 描述 如 下 : 
CL) 数据 预 处 理 ， 如 归 一 化 、 离 群 点 处 理 等 。 


(2) BELEK MBE GAIA A HA。 


Ca) ama “OM mime sa N, 
(4) 令 t=0,12,… 为 迭代 步 数 ， 重 复 下 面 过 程 直到 J coe: 


。 对 于 每 一 个 样本 x;， 将 其 分 配 到 距离 最 近 的 簇 


c?” — argmin ||x, -A 


(5.2) 


。 对 于 每 一 个 类 簇 k， 重 新 计算 该 类 簇 的 中 心 
wi argmin Y x-a? 
(5.3) 


K 均 值 算法 在 迁 代 时 ， 假 设 当 前 J 没有 达到 最 小 值 ， 那 么 首先 固定 
入 中 心 {ji}， 调 整 每 个 样 例 所 属 的 类 别 cj 来 让 J 函数 减少 :然后 固定 
{cj}， 调 整 簇 中 心 {pj} 使] 减 小 。 这 两 个 过 程 交 葵 循环 ，J 单 调 递 碱 ， 当 了 
递减 到 最 小 值 时 ，{j} 和 {oj} 也 同时 收敛 。 


图 5.2 是 K-means 算 法 的 一 个 迭代 过 程 示意 图 。 首 先 ， 给 定 二 维 空间 

上 的 一 些 样本 点 〈 见 图 5.2 (a) ) ， 直 观 . 可 以 被 分 成 接 

j- 点 【图 5.2 (b) 的 棕色 和 黄色 叉子 代表 中 

点 ) ， 心 点 的 位 置 计算 每 个 样本 所 属 的 簇 (图 5.2 (c) 

颜色 表示 ) ; 然后 根据 每 个 秘 中 的 所 有 点 的 平均 值 计算 新 的 中 

《 见 图 5.2 (d) ) ; 图 5.2 Ce) 和 图 5.2《〈f) 展示 了 新 一 轮 的 迭代 : 
在 经 过 两 轮 的 迭代 之 后 ， 算 法 基本 收敛 。 










































图 5.2 K 均 值 线 类 算法 的 迁 代 过 程 示意 图 


i K 均 值 算法 的 优 缺 点 是 什么 ? 如何 对 其 进行 调 






难度 : detects te 

分 析 与 解答 
K 均 值 算法 有 一 些 缺点 ， 例 如 受 初 值 和 离 群 点 的 影响 每 次 的 结果 不 
稳定 、 结 果 通 常 不 是 全 ARMAAN, AAR AT HERE 





分 布 差别 比较 大 的 情况 〈 比 如 一 类 是 另 一 类 样本 数量 的 100 倍 ) 、 不 太 

适用 于 离散 分 类 等 。 但 是 甫 不 掩 瑜 ，K 均 值 聚 类 的 优点 也 是 很 明显 和 突 

出 的 ， 主 要 体现 在 : 对 于 大 数据 集 ， oe aa 
的 ， 它 的 计算 复杂 度 是 OUNKD 接 近 于 线性 ， 其 中 是 数据 对 象 的 

目 ，K 是 聚 类 的 筷 数 ，! 是 迭代 的 轮 数 。 尽 管 算 局 部 最 优 结 

但 一 航 情 况 下 达到 的 局 部 最 优 已 经 可 以 满足 到 关 的 需求 。 


K 均 值 算法 的 调 优 一 般 可 以 从 以 下 几 个 角度 出 发 。 
CL) 数据 归 一 化 和 离 群 点 处 理 。 


K 均 值 聚 类 本 质 上 是 一 种 基于 欧式 距离 度量 的 数据 划分 方法 ， 均 值 
和 方差 大 的 维度 将 对 数据 的 聚 类 结果 产生 决定 性 的 影响 ， 所 以 未 做 归 一 
化 处 理 和 统一 单位 数据 是 无 法 直接 参与 运算 和 比较 的 同时 ， 离 群 点 
或 者 少量 的 噪声 数据 就 会 对 均值 产生 较 大 的 影响 ， 导 致 中 心 偏 移 ， 因 此 
使 用 K 均 值 聚 类 算法 之 前 通常 需要 对 数据 做 预 处 理 。 


(2) 合理 选择 K 值 。 

天 值 的 选择 是 K 均 值 聚 类 最 大 的 问题 之 一 ， 这 
ae 们 希望 能 够 找到 一 上 可 行 的 办 法 来 弥补 这 一 缺 
fe) Ao ANa 是 ，K 值 的 选择 一 般 基于 经 
Heese 果 。 例 如 采用 手 时 法 ， 我 们 可 以 尝试 不 同 的 K 值 ， 并 将 不 





















同 K 值 所 对 应 的 损失 函数 画 成 折线 ， 横 轴 为 K 的 取 值 ， 纵 轴 为 误差 平方 
和 所 定义 的 损失 函数 ， 如 图 5.3 所 示 。 

















1 7 7 4 7 5 


H 

x 
图 5.3 均值 算法 中 K 值 的 选取 PI 

由 图 可 见 ，K 值 越 大 ， 距 离 和 越 小 ， 并 且 ， 当 K=3 时 ， 存 在 一 个 拐 

f; 像 人 的 肘 部 一 样 ， 当 K el(1,3) 时 ， 曲 线 急速 下 降 ， 当 K>3 时 ， 曲 线 

趋 于 平稳 。 手 肘 法 是 K 的 最 佳 值 。 

是 不 够 自动 化 ， 因 此 研究 员 们 又 提 










statistic: BEKA, 该 Hawa HRCI, (ea WR) 
ARSE AL ETA, ASK, ADLER HI Dy. 
Gap Statistic 定 义 为 





Gap(K)=E(logD,)-logD, ， 
(5.4) 


其 中 EUogDb 是 logDi 的 期 望 ， 一 般 通 过 蒙特 卡 洛 模拟 产生 。 我 们 在 样本 
内 按照 均匀 分 布 随机 地 产生 和 原始 样本 数 一 样 多 的 随机 样 
个 随机 样本 做 K 均 值 ， 得 到 一 个 Dk 重复 多 次 就 可 以 计算 出 





E(logDi) 的 近似 值 。 那 么 Gap(K) 有 什么 物理 含义 昵 ? 它 可 以 视 为 随机 样 
本 的 损失 与 实际 样本 的 损失 之 差 。 试 想 实际 样本 对 应 的 最 佳 簇 数 为 K， 
那么 实际 样本 的 损失 应 该 相对 较 小 ， 随 机 样本 损失 与 实际 样本 损失 之 差 
也 相应 地 达到 最 小 值 ， 从 而 Gap(K) 取 得 最 大 值 所 对 应 的 K 值 就 是 最 佳 的 
簇 数 。 根 据 式 (5.4) 计算 K =1,2,.…,9 所 对 应 的 Gap Statistic， 如 图 5.4 所 
示 。 由 图 可 见 ， 当 K=3 时 ，Gap(K) 取 值 最 大 ， 所 以 最 佳 的 镶 数 是 K=3。 














图 54 均值 算法 中 K 值 的 选取 ，Gap Statistic 方 法 
(3) 采用 核 函 数 。 
采用 核 函 数 是 另 一 种 可 以 尝试 的 改进 方向 。 传 统 的 欧式 距离 度量 方 


式 ， 使 得 K 均 值 算法 本 质 上 假设 了 各 个 数据 簇 的 数据 具有 一 样 的 先 验 概 
率 ， 并 呈现 球形 或 者 高 维 球形 分 布 ， 这 种 分 布 在 实际 生 放 不 常 






算法 ， 是 核 聚 类 方法 的 一 种 回 。 核 聚 类 方法 的 主要 思想 是 
非 线性 映射 ， 将 输入 空间 中 的 数据 点 映射 到 高 位 的 特征 空间 
中 ， 并 在 新 的 特征 空间 中 进行 聚 类 。 非 线性 映射 增加 了 数据 点 线性 可 分 
的 概率 ， 从 而 在 经 典 的 聚 类 算法 失效 的 情况 下 ， 通 过 引入 核 函 数 可 以 达 
到 更 为 准确 的 聚 类 结果 











问题 3 针对 K 均 值 算法 的 缺点 ， 有 哪些 改进 的 模型 ? 


难度 : eeke 


分 析 与 解答 


K 均 值 算法 的 主要 缺点 如 下 。 
(1) 需要 人 工 预先 确定 初始 K 值 ， 且 该 值 和 真实 的 数据 分 布 未 必 吻 


a> 


(2) K 均 值 只 能 收敛 到 局 部 最 优 ， 效 果 受 到 初始 值 很 大 。 

(3) 易 受 到 噪点 的 影响 。 

CA) 样本 点 只 能 被 划分 到 单一 的 类 中 。 

mK-means++ 算 法 

K 均 值 的 改进 算法 中 ， 对 初始 值 选 择 的 改进 是 很 重要 的 一 部 分 。 而 
这 类 算法 中 ， 最 具 影 响 力 的 当 属 K-means++ 算 法 。 原 始 K 均 值 算法 最 开 
始 随机 选取 数据 集中 K 个 点 作为 聚 类 中 心 ， 而 K-means++ 按 照 如 下 的 思 
想 选取 K 个 聚 类 中 心 。 假 设 已 经 选取 了 n 个 初始 聚 类 中 心 (0<n<K) ， 则 
在 选取 第 n+1 个 聚 类 中 心 时 ， 距 离 当 前 n 个 聚 类 中 心 越 远 的 高 
ea pane ru Ne yey 


越 远 越 好 。 Sumanen e ans nTn 和 经 典 K 均 值 算 
法 相同 ， 这 也 是 对 初始 值 选择 进行 改进 的 方法 等 共同 点 。 


ISODATA 算 法 








当 K 值 的 大 小 不 确定 时 ， 可 以 使 用 ISODATA 算 法 。ISODATA 的 全 
称 是 迭代 自 组 织 数据 分 析 法 。 在 K 均 值 算法 中 ， 聚 类 个 数 K 的 值 需要 预 
先 人 为 地 确定 ， 并 且 在 个 算法 过 程 中 无 法 更 改 。 而 当 遇 到 高 维度 、 海 
量 的 数据 集 时 ， 难 准确 地 估计 出 K 的 大 小 。ISODATA 算 法 就 
是 针对 这 个 问题 了 改进 ， 它 的 思想 也 很 直观 。 当 属于 某 个 类 别 的 样 
本 数 过 少时 ， 把 该 类 别 去 除 ， 当 属于 某 个 类 别 的 样本 数 过 多 、 分 散 程度 
较 大 时 ， 把 该 类 别 分 为 两 个 子 类 别 。ISODATA 算 法 在 K 均 值 算法 的 基础 












之 上 增加 了 两 个 操作 ， 一 是 分 裂 操 作 ， 对 应 着 增加 聚 类 中 心 : 
操作 ， 对 应 着 减少 聚 类 中 心 数 。ISODATA 算 法 是 一 个 比较 常见 的 算 

省 定 的 参数 比较 多 ， 不 仅仅 需要 一 个 参考 的 聚 类 数量 

定 3 个 阔 值 。 下 面 介 绍 ISODATA 算 法 的 各 个 输入 参数 。 


(1) 预期 的 聚 类 中 心 数目 Ku。 在 ISODATA 运 行 过 程 中 聚 类 中 心 数 
可 以 变化 ，Ko 是 一 个 用 户 指定 的 参考 值 ， 该 算法 的 聚 类 中 心 数目 
围 也 由 其 决定 。 具 体 地 ， 最 终 输 出 的 聚 类 中 心 数目 常见 范围 是 从 K。 的 一 
半 ， 到 两 倍 Ko。 

(2) 每 个 类 所 要 求 的 最 少 样本 数目 Nn。 如 果 分 裂 后 会 导致 某 个 
子 类 别 所 包含 样本 数目 小 于 该 阔 值 ， 就 不 会 对 该 类 别 进行 分 型 操作 。 

(3) 最 大 方差 sigma。 用 于 控制 某 个 类 别 中 样本 的 分 散 程度 。 当 样 
本 的 分 散 程 度 超过 这 个 阔 值 时 ， 且 分 裂 后 满足 (1) ， 进 行 分 裂 操作 。 
C4) 两 个 聚 类 中 心 之 间 所 允许 最 小 距离 Pwmn。 如 果 两 个 类 靠 得 非 
和 近 《 即 这 两 个 类 别 对 应 聚 类 中 心 之 间 的 距离 非常 小 ) ， 小 于 该 阔 值 
时 ， 则 对 这 两 个 类 进行 合并 操作 。 


如 果 希 望 样本 不 划分 到 单一 的 类 中 ， 可 以 使 用 模糊 C 均 值 或 者 高 斯 
混合 模型 ， 高 斯 混合 模型 会 在 下 一 节 中 详细 讲述 。 














问题 4 证 明 K 均 值 算法 的 收敛 性 。 


难度 : adobe 


分 析 与 解答 


首先 ， 我 们 需要 知道 K 均 值 聚 类 的 迭代 算法 实际 上 是 一 种 最 大 期 望 
算法 〔Expectation-Maximization algorithm) ， 简 称 EM 算 法 。 EM 算法 解 
决 的 是 在 概率 模型 中 含有 无 法 观测 的 隐 含 变量 情况 下 的 参数 估计 问题 。 





假设 有 m 个 观察 样本 ， 模 型 的 参数 为 9， 最 大 化 对 数 似 然 函数 可 以 写成 
如 下 形式 


0=argmax Fogra” 10) 
(5.5) 
当 概率 模型 中 含有 无 法 被 观测 的 隐 售 变量 时 ， 参 数 的 最 大 似 然 估计 变 为 
0 = argmax Slog y Pa”, 10) 
0 . 
(5.6) 


POR ARI, FEE EBSD AMET RSE, 这 时 就 需要 利 


用 EM 算法 来 求解 。 假 设 2 对 应 的 分 布 为 @.(z")， 并 满足 T 利 


用 Jensen 不 等 式 ， 可 以 得 到 
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PG? _ 
St LER, IRIE Be) S ROEE H 
OOO p, Oa -ea 不 等 式 右 侧 函数 





a 
记 为 re 的 。 当 等 式 成 立时 ， 我 们 相当 于 为 待 优化 的 函数 找到 了 一 个 融 近 
的 下 界 ， 然 后 通过 最 大 化 这 个 下 界 可 以 使 得 待 优化 函数 向 更 好 的 方向 改 
进 。 

图 5.5 是 一 个 9 为 一 维 的 例子 ， 其 中 棕色 的 曲线 代表 我 们 待 优化 的 函 
数 ， 记 为 K9)， 优 化 过 程 即 为 找到 使 得 Kb) 取 值 最 大 的 8。 在 当前 9 的 取 值 
下 《〈 即 图 中 绿色 的 位 置 ) ， 可 以 计算 CCz”) = P(z K,O), KERER 





右 侧 的 函数 〔 记 为 rol9)) 给 出 了 优化 函数 的 一 个 下 界 ， 如 图 中 蓝 色 曲 线 
所 示 ， 其 中 在 6 处 两 条 曲线 的 取 值 时 相等 的 。 接 下 来 找到 使 得 rolg) 最 大 
化 的 参数 9， 即 图 中 红色 的 位 置 ， 此 时 6? 的 取 值 比 K6) (绿色 的 位 置 
处 ) 有 所 提升 。 可 以 证 明 ，Xg)>r(xl9)=Kg)， 因 此 函数 是 单调 的 ， 而 且 
PCx0,z19)s(0,D 从 而 函数 是 有 界 的 。 根 据 函数 单调 有 界 必 收 敛 的 性 
质 ，EM 算 法 的 收敛 性 得 证 。 但 是 EM 算法 只 保证 收敛 到 局 部 最 优 解 。 当 
BRE, 以 图 5.5 为 例 ， 如 果 初 始 化 在 左边 的 区 域 时 ， 则 无 法 找 
到 右 侧 的 高 点 。 
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图 5.5 KEMIAN 


由 上 面 的 推导 ，EM 算 法 框架 可 以 总 结 如 下 ， 由 以 下 两 个 步骤 交 蔡 
进行 直到 收 伍 。 


(1) EPIR: 计算 隐 变 量 的 期 望 
Q(2) = PZ |x), 
(5.8) 
(2) M 步 骤 : 最 大 化 





(5.9) 
剩 下 的 事情 就 是 说 明 K 均 值 算法 与 EM 算法 的 关系 了 。K 均 值 算法 等 


价 于 用 EM 算法 求解 以 下 含 隐 变 量 的 最 大 似 然 问题 : 


exp(= x= u, I), = a= min I~ lh; 


P(X,2 | 4h» has» mel 
0 olly, h> min, || x= y ll, 





… KERERE. HANE, M 





在 E 步 又 ， 计 算 


LI -An [p= min, |x- h Ik ; 


OEO) = PE (x°, tshs) 
O, lla -Ho b> min, |x- 4 lp 


(5.11) 


这 等 同 于 在 K 均 值 算法 中 对 于 每 一 个 点 x 找到 当前 最 近 的 簇 z)。 
在 M 步 又 ， 找 到 最 优 的 参数 0 = (ei tases Kr}， 使 得 似 然 函数 最 
Ke 





of S Djiog P2710) 
O=angmax Doai Jog: Ge 
(5.12) 
经 过 推导 可 得 
n o z0) a 
Eyen a =eonst = 91x = ayy IP 
(5.13) 
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ie 
zn “rly 最 小 ， 此 时 每 个 样本 x 对 应 的 艇 :9 已 确定 ， 因 此 每 个 
z 册 可 以 由 访 戏 中 所 有 点 的 平均 计算 得 到 ， 这 与 K 均 






值 算法 中 根据 当前 簇 的 分 配 更 新 聚 类 中 心 的 步骤 是 等 同 的 。 


02 高 斯 混合 模型 


场景 描述 


高 斯 混合 模型 (Gaussian Mixed Model, GMM) 也 是 一 种 常见 的 聚 
类 算法 ， 与 K 均 值 算法 类 似 ， 同 样 使 用 了 EM 算法 进行 迭代 计算 。 高 斯 
混合 模型 假设 每 个 簇 的 数据 都 是 符合 高 斯 分 布 又 叫 正 态 分 布 ) 的 ， 当 
前 数据 呈现 的 分 布 就 是 各 个 簇 的 高 斯 分 布 生 加 在 一 起 的 结果 。 


图 5.6 是 一 个 数据 分 布 的 样 例 ， 如 果 只 用 一 个 高 斯 分 布 来 拟 合 图 中 
的 数据 ， 图 中 所 示 的 椭 贺 即 为 高 斯 分 布 的 二 倍 标准 差 所 对 应 的 椭圆 。 直 
观 来 说 ， 图 中 的 数据 明显 分 为 两 筷 ， 因 此 只 用 一 个 高 斯 分 布 来 拟 和 是 不 
太 合 理 的 ， 需 要 推广 到 用 多 个 高 斯 分 布 的 又 加 来 对 数据 进行 拟 合 。 图 
5.7 是 用 两 个 高 斯 分 布 的 又 加 来 拟 合 得 到 的 结果 。 这 就 引出 了 高 斯 混合 
模型 ， 即 用 多 个 高 斯 分 布 函 数 的 线形 组 合 来 对 数据 分 布 进行 拟 合 。 理 论 
上 ， 高 斯 混合 模型 可 以 拟 合 出 任意 类 型 的 分 布 。 
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图 5.6 商 斯 混合 模型 样 例 《 用 一 个 混合 分 重 米 拟 合 ) 
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知识 点 


高 斯 分 布 ， 高 斯 混合 模型 ，EM 算 法 


问题 高 斯 混合 模型 的 核心 思想 是 什么 ? 它 是 如 何 和 迭代 


计算 的 ? 


难度 : Jee ve veve 


分 析 与 解答 


说 起 高 斯 分 布 ， 大 家 都 不 陌生 ， 通 常 身高 、 分 数 等 都 大 致 符合 高 斯 
分 布 。 因 此 ， 当 我 们 研究 各 类 数据 时 ， 假 设 同一 类 的 数据 符合 高 斯 分 
布 ， 也 是 很 简单 自然 的 假设 ， 当 数据 事实 上 有 多 个 类 ， 或 者 我 们 希望 将 
数据 划分 为 一 些 徐 时 ， 可 以 假设 不 同 徐 中 的 样本 各 自 服从 不 同 的 高 斯 分 


布 ， 由 此 得 到 的 聚 类 算法 称 为 高 斯 混合 模型 。 


高 斯 混合 模型 的 核心 思想 是 ， 假 设 数据 可 以 看 作 从 多 个 高 斯 分 布 中 
生成 出 来 的 。 在 该 假设 下 ， 每 个 单独 的 分 模型 都 是 标准 高 斯 模型 ， 其 均 
值 上 和 方差 2i 是 待 估计 的 参数 。 此 外 ， 每 个 分 模型 都 还 有 一 个 参数 mm 
可 以 理解 为 权重 或 生成 数据 的 概率 。 高 斯 混合 模型 的 公式 为 





K 
POX) = È NC | 4,2) 


(5.14) 


高 斯 混合 模型 是 一 个 生成 式 模型 。 可 以 这 样 理 解数 据 的 生成 过 程 ， 
假设 一 个 最 简单 的 情况 ， 即 只 有 两 个 一 维 标准 高 斯 分 布 的 分 模型 N(0,1) 
和 N(5,1)， 其 权重 分 别 为 0.7 和 0.3。 那 么 ， 在 生成 第 一 个 数据 点 时 ， 先 按 
照 权重 的 比例 ， 随 机 选择 一 个 分 布 ， 比 如 选择 第 一 个 高 斯 分 布 ， 接 着 从 

Eo 如 -0.5， 便 是 第 一 个 数据 点 。 在 生成 第 二 个 数据 

过 二 个 高 斯 分 布 N(5,1)， 生 成 了 第 二 个 点 4.7。 如 此 循 
， 便 生成 出 了 所 有 的 数据 点 。 


通常 我 们 并 不 能 直接 得 到 高 斯 混合 模型 的 参数 ， 而 是 观察 到 
Ei | 数 给 出 一 个 类 别 的 数量 K 后 ， 希 望 求 得 最 佳 的 K 个 高 斯 
分 模型 。 斯 混合 模型 的 计算 ， 便 成 了 最 佳 的 均值 4， 方 差 z>、 权 
重 n 的 寻找 ， 这 类 问题 通常 通过 最 大 似 然 估 计 来 求解 。 遗 憾 的 是 ， 此 问 
题 中 直接 使 用 最 大 似 然 估计 ， 得 到 的 是 一 个 复杂 的 非 凸 函数 ， 目 标 函数 
是 和 的 对 数 ， 难 以 展开 和 对 其 求 偏 导 。 


在 这 种 情况 下 ， 可 以 用 上 一 节 已 经 介绍 过 的 EM 算法 框架 来 求解 该 
优化 问题 。EM 算 法 是 在 最 大 化 目标 函数 时 ， 先 固定 一 个 变量 使 整体 函 
数 变 为 凸 优化 函数 ， 求 导 得 到 最 值 ， 然 后 利用 最 优 参数 更 新 被 固定 的 变 
量 ， 进 入 下 一 个 循环 。 具体 到 高 斯 混合 模型 的 求解 ，EM 算 法 的 迭代 过 
程 如 下 。 


首先 ， 初 始 随机 选择 各 参数 的 值 。 然 后 ， 重 复 下 述 两 步 ， 直 到 收 





















(1) E 步 又 。 根 据 当前 的 参数 ， 计 算 每 个 点 由 某 个 分 模型 生成 的 概 


(2) M 步 又 。 使 用 E 步 又 估计 出 的 概率 ， 来 改进 每 个 分 模型 的 均 
值 ， 方 差 和 权重 。 


t 是 说 ， 我 们 并 不 知道 最 佳 的 K 个 高 斯 分 布 的 各 自 3 个 参数 
知道 每 个 数据 点 究竟 是 哪个 高 斯 分 布 生成 的 。 所 以 每 次 循环 时 ， 
当前 的 高 斯 分 布 不 变 ， 获 得 每 个 数据 点 由 各 个 高 斯 分 布 生成 的 要 
后 固定 该 生成 概率 不 变 ， 根 据 数据 点 和 生成 概率 ， 获 得 一 个 组 更 佳 的 高 
斯 分 布 。 循 环 往复 ， 直 到 参数 的 不 再 变化 ， 或 者 变化 非常 小 时 ， 便 得 到 
了 比较 合理 的 一 组 高 斯 分 布 。 


高 斯 混合 模型 与 K 均 值 算法 的 相同 点 是 ， Packt mls 聚 类 的 算 
法 ;都 需要 指定 K 值 ， 都 是 使 用 EM 算法 : 都 往往 只 能 收敛 于 局 部 
最 优 。 而 它 相 比 于 K 均 值 算法 的 优点 是 ， E ARAR EES 
概率 是 多 少 ; 不 仅仅 可 以 用 于 聚 类 ， 还 可 以 用 于 概率 密度 的 估计 ; 并 且 
可 以 用 于 生成 新 的 样本 点 。 


不 












03” 自 组 织 映射 神经 网 络 


场景 描述 


自 组 织 映 射 神经 网 络 (Self-Organizing Map, SOM) 是 无 监督 学 习 
方法 中 一 类 重要 方法 ， 可 以 用 作 聚 类 高 维 可 视 化 、 数据 压缩 、 特 征 提 
取 等 多 种 用 途 。 在 深度 神经 网 络 大 的 今天 ， 谈 及 自 组 织 映射 神经 
网 络 依然 是 一 件 非常 有 意义 的 事情 ， ERT AALS 
融入 了 大 量 人 脑 神经 元 的 信 SALE, 有 着 独特 的 结构 特点 。 该 模型 
由 芬兰 赫尔辛基 大 学 教授 Teuvo Kohonen 于 1981 年 提出 ， 因 此 也 被 称 为 
Kohonen 网 络 。 












知识 点 
自 组 织 映 射 神经 网 络 


问题 1 自 组 织 映射 神经 网 络 是 如 何 工作 的 ? 它 与 K 均 值 
算法 有 何 区 别 ? 


难度 : ake deter 
分 析 与 解答 


研究 表明 ， 在 人 脑 的 感知 通道 
脑 皮 层 会 paige 


， Mi etic ey 







Sia RAHM 受 特定 模式 抽 Bis MERREN 





的 频 而 远离 
神经 PEND HIKES ALBA, 而 是 通过 后 天 | 
形成 的 。 


在 生物 神经 系统 中 ， 还 存在 着 一 种 侧 抑制 现象 ， 即 一 个 神经 细胞 兴 
奋 后 ， 会 对 周围 其 他 神经 细胞 产生 抑制 作用 。 这 种 抑制 作用 会 使 神经 细 
胞 之 间 出 现 竞争 ， 其 结果 是 某 些 获胜 ， 而 另 于 
胜 神经 细胞 兴奋 ， 失 败 神经 细胞 抑制 。 自 组 
神经 系统 功能 的 一 种 人 工 神经 网 络 模拟 。 


自 组 织 映射 神经 网 络 本 质 上 是 一 个 两 层 的 神经 网 络 ， 包 含 输入 层 和 
输出 层 (竞争 层 ) 。 输 入 层 模拟 感知 外 界 输入 人 > 全民 
拟 做 出 响应 的 大 脑 皮层 。 输 出 元 i R 
表 每 一 个 需要 到 成 的 类 。 训 练 “ 竞 
例 在 输出 层 中 找到 一 个 和 它 最 下 本 的 节点 ， 

















参数 。 tt athe ES BUE AT 路 径 ) 来 
实现 ， 自 组 织 映射 神经 网 络 的 输出 层 节点 是 有 拓扑 关系 的 


见 。 





图 5.8 SOM 常见 的 两 种 网 络 结构 


假设 输入 空间 是 D 维 ， 输 入 模式 为 ; 
元 /之 间 在 计算 层 的 连接 权重 为 w= W j 






.…,D}， 输 入 单元 i 和 神经 
=1.…D}， 其 中 NN 是 神经 


元 的 总 数 。 自 组 织 映射 神经 网 络 的 自 组 织 学 习 过 程 可 以 归纳 为 以 下 几 个 
子 过 程 。 


(1) 初始 化 。 所 有 连接 权重 都 用 小 的 随机 值 进行 初始 化 。 


(2) 竞争 。 神 经 元 计算 每 一 个 输入 模式 各 自 的 判别 函数 值 ， 并 宣 
ss 经 元 为 胜利 者 ， 其 中 每 个 神经 元 /的 判 


A Ža- w)? 


(3) 合作 。 获 胜 神经 元 1(x) 决 定 了 兴奋 神经 元 拓扑 邻 域 的 空间 位 
置 。 确 定 激活 结 点 Kx) 之 后 ， 我 们 也 希望 更 新 和 它 临近 的 节点 。 更 新 程 





Tatoo 

度 计算 如 下 : 200"), 其 中 5 表示 竞争 层 神经 元 i 和 之 间 
a= oer 上 

的 距离 时 间 衰 减 ， 简 单 地 说 ， 临 近 的 节点 距离 越 


远 ， 更 新 的 程度 要 打 更 大 折扣 。 
(4) 适应 。 适 当 调整 相关 兴奋 神经 元 的 连接 权重 ， 使 得 获胜 的 神 
经 元 对 相似 输入 模式 的 后 续 应 用 的 响应 增强 * 
Aw, =7() T, (e (=w), 


ww-men[-] 


其 中 依赖 于 时 间 的 学 习 率 定义 为 n Je 
(5) 迭代。 继续 回 到 步骤 (2) ， 直 到 特征 映射 趋 于 稳定 。 
在 选 代 结 束 之 后 ， 每 个 样本 所 激活 的 神经 元 就 是 它 对 应 的 类 别 。 


自 组 织 映 射 神经 网 络 具有 保 序 映射 的 特点 ， 可 以 将 任意 维 输入 模式 
a 射 为 一 维 或 者 维 图 形 ， oeeie rites Sls 












其 学 
EDEA WIARE, 同时 对 该 过 程 的 迭代 进行 会 :使 
得 网 络 的 拓扑 有 序 。 


在 自 组 织 映射 神经 网 络 中 ， 获 胜 的 神经 元 将 使 得 相关 的 各 权重 向 更 





加 有 利于 它 竞争 的 方向 调整 ， 即 以 获胜 神经 元 为 中 心 ， 对 近邻 的 
SLE FFE SZ, 邻 的 神经 元 表现 出 抑制 性 侧 反馈 ， 近 邻 者 
互相 激励 ， 远 邻 者 相互 抑制 。 近 邻 和 远 邻 均 有 一 定 的 范围 ， 对 更 远 邻 的 
神经 元 则 表现 弱 激 励 的 作用 。 这 种 交互 作用 的 方式 以 曲线 可 视 化 则 类 似 
于 “墨西哥 帽 "， 如 图 5.9 所 示 。 


交互 作用 












‘ana 


图 59 MARMEREN 
自 组 织 映射 神经 网 络 与 K 均 值 算法 的 区 别 如 下 。 


CL) K 均 值 算法 需要 事先 定 下 类 的 个 数 ， 
映射 神经 网 络 则 不 用 ， 隐 藏 层 中 的 某 些 节点 可 以 没有 任何 输入 数据 属于 
它 ， 因 此 聚 类 结果 的 实际 簇 数 可 能 会 小 于 神经 元 的 个 数 。 而 K 均 值 算法 
受 K 值 设 定 的 影响 要 更 大 一 些 。 


(2) K 均 值 算法 为 每 个 输入 数据 找到 一 个 最 相似 的 类 后 ， 只 更 新 
这 个 类 的 参数 ， 自 组 织 遇 射 神经 网 络 则 会 更 新 临近 的 节点 。 所 以 ，K 均 
值 算法 受 noise data 的 影响 比较 大 ， 而 自 组织 映 射 神经 网 络 的 准确 性 可 能 
会 比 K 均 值 算法 低 (因为 也 更 新 了 临近 节点 )。 


自 组 织 映射 神经 网 络 的 可 视 化 比较 好 ， 而 且 具 






是 K 的 值 。 而 自 组 织 








s 怎样 设计 自 组织 映 射 神经 网 络 并 设 定 网 络 训练 参 
数 ? 


难度 : took teas 


分 析 与 解答 


里 设 定 输出 层 神经 元 的 数量 

输出 层 神 经 元 的 数量 和 训练 集 样本 的 类 别 数 相关 。 若 不 清楚 类 别 
数 ， 则 尽 可 能 地 设 定 较 多 的 节点 数 ， 以 便 较 好 地 映射 样本 的 拓扑 结构 ， 
如 果 分 类 过 细 再 酌情 减少 输出 节点 。 这 样 可 能 会 带 来 少量 从 未 更 新 过 权 
值 的 “ 死 节点 "， 但 一 般 可 通过 重新 初始 化 权 值 来 解决 。 

里 设计 输出 层 节点 的 排列 


输出 层 的 节点 排列 成 哪 种 形式 取决 于 实际 应 











用 的 需要 ， 排 列 形式 应 












尽量 直观 地 反映 出 实际 问题 的 物理 意义 。 例 如 ， 对 于 一 般 的 分 类 问题 ， 
一 个 输出 节点 能 代表 一 个 模式 类 ， 用 一 维 线 阵 既 结构 简单 又 意义 明确 ; 
对 于 颜色 空间 或 者 旅行 路 径 类 的 问题 ， 二 维 平面 则 比较 直观 。 


里 初始 化 权 值 


可 以 随机 初始 化 ， 但 尽量 使 权 值 的 初始 位 置 与 输入 样本 的 大 概 分 布 
区 域 充分 重合 ， 避 免 出 现 大 量 的 初始 “ 死 节 点 "。 一 种 简单 易 行 的 方法 是 
从 训练 集中 随机 抽取 m 个 输入 样本 作为 初始 权 值 。 


里 设计 拓扑 领域 


拓扑 领域 的 设计 原则 是 使 领域 不 断 缩小 ， 这 样 输 出 平面 上 相 邻 神经 
元 对 应 的 权 向 量 之 间 既 有 区 别 又 有 相当 的 相 从 而 保证 当 获胜 节点 
对 某 一 类 模式 产生 最 大 响应 时 ， 其 领域 节点 也 能 产生 较 大 响应 。 
Le Re 菱形 。 优 势 领域 的 大 小 用 领域 的 半径 表 

















学 习 率 是 一 个 递减 的 函数 ， 可 以 结合 拓扑 邻 域 的 更 新 一 起 考虑 ， 也 
可 分 开 考虑 。 在 训练 开始 时 ， 率 可 以 选取 较 大 的 值 ， 之 后 以 较 快 的 
速度 下 降 ， 这 样 有 利于 很 快 地 捕捉 到 输入 向 量 的 大 致 结构 ， 然 后 学 习 率 





在 较 小 的 值 上 缓 降 至 0 值 ， 这 样 可 以 精细 地 调整 权 值 使 之 符合 输入 空间 
的 样本 分 布 结构 。 


04 ” 聚 类 算法 的 评估 


场景 描述 


人 具有 很 强 的 归纳 思考 能 力 ， 善 于 从 一 大 堆 碎 片 化 的 事实 或 者 数据 
中 寻找 普遍 规律 ， 并 得 到 具有 远 辑 性 的 结论 。 以 用 户 观 看 视频 的 行为 为 
例 ， 可 以 存在 多 种 直观 的 归纳 方式 ， 比 如 从 喜欢 观看 内 容 的 角度 ， 可 以 
分 为 动画 片 、 偶 像 剧 、 科 幻 片 等 ; 从 常 使 用 的 设备 角度 ， 可 以 分 为 台式 
电脑 手机、 平板 便携 式 设 备 、 电 视 等 ; 从 使 用 时 间 段 上 看 ， 有 傍晚 
中 午 、 每 天 、 只 在 周末 观看 的 用 户 ， 等 等 。 对 所 有 用 户 进行 有 效 的 分 组 
对 于 理解 用 户 并 推荐 给 用 户 合适 的 内 容 是 很 重要 的 。 通 常 这 类 问题 没有 
BoE USAR ARE REE Ree eee 
和 模式 。 





知识 点 
数据 禾 ， 豪 类 算法 评估 指标 


问题 “以 聚 类 问题 为 例 ， 假 设 没有 外 部 标签 数据 ， 如 何 
评估 两 个 聚 类 算法 的 优 劣 ? 


难度 : eeke re 


一 个 典型 的 聚 类 问题 ， 从 中 可 以 看 出 ， 数 据 


征 度量 以 及 评估 数据 相 
没有 标注 数据 ， 模 型 









算法 的 设计 直接 影响 最 终 的 输出 和 模型 的 性 能 。 为 了 评估 不 同 聚 类 算法 
性 能 优 务 ， 我 们 需要 了 解 常见 的 数据 簇 的 特点 。 


。 以 中 心 定义 的 数据 徐 : 这 类 数据 集合 倾向 于 球形 分 布 ， 通 常 中 心 被 
定义 为 质心 ， 即 此 数据 簇 中 所 有 点 的 平均 值 。 集 合 中 的 数据 到 中 4 ` 
的 距离 相 比 到 其 他 簇 中 心 的 距离 更 近 。 


。 以 密度 定义 的 数据 徐 : 这 类 数据 集合 呈现 和 周围 数据 徐 明 显 不 同 的 
密度 ， 或 稀疏 。 当 数据 簇 不 规则 或 互相 盘 绕 ， 并 且 有 噪声 和 
离 群 点 时 ， 使 用 基于 密度 的 簇 定义 。 

。 以 连通 定义 的 数据 徐 : 这 类 数据 集合 中 的 数据 点 和 数据 点 之 间 有 连 
人 该 定义 对 不 规则 形状 或 者 缠绕 
的 数据 ; A 


. eo ERMA: 这 类 数据 集合 中 的 所 有 数据 点 具有 某 种 共同 






由 于 数据 以 及 需求 的 多 样 性 ， 没 有 一 种 算法 能 够 适用 于 所 有 的 数据 

类 型 、 数 据 簇 或 应 用 场景 ， 似 乎 每 种 情况 都 可 能 需要 一 种 不 同 的 评估 方 

准 。 例 如 ， K 均 值 聚 类 可 以 用 误差 平方 和 来 评估 ， 但 是 基于 

数据 簇 可 能 不 是 球形 ， 误 差 平方 和 则 会 失效 。 在 许多 情况 下 ， 判 

断 聚 类 算法 结 SLIDE SRR RU 主观 解释 。 尽 管 如 此 ， 聚 类 算法 的 评 
估 还 是 必需 的 ， 它 是 聚 类 分 析 中 十 分 重要 的 部 分 之 一 


聚 类 评估 的 任务 是 估计 在 数据 集 上 进行 聚 类 的 可 行 性 ， 以 及 聚 类 方 
法 产生 结果 的 质量 。 这 一 过 程 又 分 为 三 个 子 任务 。 


(1) 估计 聚 类 趋势 。 


这 一 步 又 是 检测 数据 分 布 中 是 否 存在 非 随机 的 簇 结构 。 如 果 数 据 是 
基本 随机 的 ， 那 么 聚 类 的 结果 也 是 毫 无 意义 的 。 我 们 可 以 观察 聚 类 误差 
是 否 随 聚 类 类 别 数量 的 增加 而 单调 变化 ， 如 果 数 据 是 基本 随机 的 ， 即 不 
存在 非 随机 簇 结构 ， 那 么 聚 类 误差 随 聚 类 类 别 数量 增加 而 变化 的 幅度 应 
该 较 不 显著 ， 并 且 也 找 不 到 一 个 合适 的 K 对 应 数据 的 真实 簇 数 。 


另外 ， 我 们 也 可 以 应 用 霍 普 金 斯 统计 量 (Hopkins Statistic) 来 判断 








数据 在 空间 上 的 随机 性 外。 首先， 从 所 有 样本 中 随机 找 n 个 点 ， 记 
为 pupz…po， 对 其 中 的 每 一 个 点 p,， 痢 在 样本 空间 中 找到 一 个 离 它 最 近 
的 点 并 计算 它们 之 间 的 距离 w， 从 而 得 到 路 离 向 量 xjxz.…xn: 然后 ， 从 
样本 的 可 能 取信 范围 内 随机 生成 a 个 点 ， 记 为 q,q2…q,， 对 每 个 随机 生 
成 的 点 ， 找 到 一 个 离 它 最 近 的 样本 点 并 计算 它们 之 间 的 距离 ， 得 

到 yiy2,…yo。 堆 普 金 斯 统计 量 昌 可 以 表示 为 : 











(5.15) 


如 果 样 本 接近 随机 分 布 ， wart 和 2 的 取信 应 该 比较 接近 ， BJH 
的 值 接近 于 0.5， 如 果 聚 类 趋势 明显 ， 则 随机 生成 的 样本 点 距离 应 该 远 


大 于 实际 样本 点 的 距离， ae Ba HR BEE P1. 
(2) 判定 数据 簇 数 。 


确定 聚 类 趋势 之 后 ， 我 们 需要 找到 与 真实 数据 分 布 最 为 吻合 的 秘 
数 ， 据 此 判定 聚 类 结果 的 质量 。 数 据 簇 数 的 判定 方法 有 很 多 ， 例如 手 肝 
法 和 Gap Statistic 方 法 。 需要 说 明 的 是 ， 用 于 评估 的 最 佳 数据 簇 数 可 能 
程序 输出 的 簇 数 是 不 同 的。 例如 ， 有 此 全 类 算法 可 以 自动 地 确定 数据 的 
簇 数 ， 但 可 能 与 我 们 通过 其 他 方法 确定 的 最 优 数据 簇 数 有 所 差别 。 


(3) WERKTE. 


给 定 预 设 的 秘 数 ， 不 同 的 聚 类 算法 将 输出 不 同 的 结果 ， 如 何 判定 哪 
个 聚 类 结果 的 质量 更 高 呢 ? 在 无 监督 的 情况 下 ， 我 们 可 以 通过 考察 簇 的 
分 离 情 况 和 簇 的 紧凑 情况 来 评估 聚 类 的 效果 。 定 义 评估 指标 可 以 展现 面 
试 者 实际 解决 和 分 析 问 题 的 能 力 。 事 实 上 测量 指标 可 以 有 很 多 种 ， 以 下 
列 出 了 几 种 常用 的 度量 指标 ， 更 多 的 指标 可 以 阅读 相关 文献 [1 。 





。 轮廓 系数 : 给 定 一 个 点 p， 该 点 的 轮廓 系数 定义 为 


BCP)-a(P) 


to， 


(5.16) 


Hap nip S RARP Ap ZAP PSE; bp) 是 点 p 与 另 一 
ARRP A ZA BA Se PSE SCRA nS SCH, 

点 p 最 接近 的 一 簇 中 的 点 与 该 点 的 平均 距离 )》。a(p) 反 映 的 是 p 所 属 簇 中 
数据 的 紧凑 程度 ，b(p) 反 映 的 是 该 簇 与 其 他 临近 簇 的 分 离 程度 。 显 

然 ，b(p) 越 大 ，a(p) 越 小 ， 对 应 的 聚 类 质量 越 好 ， 因 此 我 们 将 所 有 点 对 

应 的 轮廓 系数 s(p) 求 平均 值 来 度量 聚 类 结果 的 质量 。 


o 均 方 根 标准 偏差 (Root-mean-square standard deviation, 
RMSSTD) : 用 来 衡量 聚 结果 的 同 质 性 ， 即 紧凑 程度 ， 定 义 为 





(5.17) 


其 中 CI 代 表 第 ;个 把 ，c 是 该 驴 的 中 心 ，xE CG 代表 属于 第 ;个 入 的 一 个 样 
本 点 ，n; 为 第 ;个 入 的 样本 数量 ，P 为 样本 点 对 应 的 向 量 维 数 。 可 以 看 
度 P 做 了 惩罚 ， 维 度 越 高 ， 则 整体 的 平方 距离 度量 什 
BK. T BO 其 中 n 为 样本 点 的 总 数 ，NC 为 聚 类 簇 的 个 数 ， 通 
党 NC<cn， 因 此 2 -的 人 接近 点 的 总 数 ， 为 一 个 常数 。 综 

上 ，RMSSTD 可 以 看 作 是 经 过 归 一 =, 












© RA (R-Square) : 可 以 用 来 衡量 聚 类 的 差异 度 ， 定 义 为 


Zllz-el > Zlx-a IF 





(5.18) 


其 中 D 代 表 束 个 玫 所 集 ，c 代 表 数 据 集 D 的 中 心 点 ， 从 而 名 1 ”| 代表 


将 数据 集 D 看 作 单一 矿 时 的 平方 误差 和 。 与 上 一 指标 RMSSTD 中 的 定义 
lx- l 

fn eo eae, PARIE 

dah A 对 应 的 平方 误差 和 指标 的 改进 幅 





. aes SEL BH ANH BS — BE RR 28 FP 
定义 


E ee ec (Cor e), 
(5.19) 
其 中 d(x,y) 表 示 点 x 到 点 y 之 间 的 距离 ，dieo i Ce pee taxi CEA 
nn) 


心 0 与 点 y 所 在 的 簇 中 心 oj 之 间 的 距离 ，。 “2” 为 所 有 (xy) 点 对 的 个 数 ， 
因此 指标 相当 于 对 每 个 点 对 的 和 做 了 归 一 化 处 理 。 理 想 情 况 下 ， 对 于 每 
个 点 对 Cey)， 如 果 dxy) 越 小 ， 对 应 的 gecwsci 5,6/) 也 应 该 越 小 《特别 
地 ， 当 它们 属于 同一 个 聚 类 簇 时 ， 中 sawec (6,c)= 0) ， 当 dxy) 越 大 
时 ，deeaseci (G6)) 的 取 值 也 应 当 越 大 ， 所 以 T 什 越 大 说 明 聚 类 的 结果 与 
样本 的 原始 距离 越 吻合 ， 也 就 是 聚 类 质量 越 高。 


此 外 ， 为 了 更 加 合理 地 评估 不 同 聚 类 算法 的 性 能 ， 通 常 还 需要 人 为 
地 造 不 间 类 型 的 数据 集 ， 以 观察 到 类 算法 在 这 些 数 据 集 上 的 效果 ， 几 
个 常见 的 例子 如 图 5.10 一 图 5.14 所 示 。 




















图 5.11 观察 到 类 误差 对 实际 到 类 结果 的 影响 
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第 6 章 ”概率 图 模型 











如 果 用 Mcrae (Probabilistic oan Model) 的 






概率 图 中 的 节 mae ia 
边 。 从 概率 论 的 角度 ， 节 i 3 -pë 
或 相关 关系 ， Hine erence Seo ATL RBI. 


概率 图 模型 分 为 贝 叶 斯 网 络 (Bayesian Network) 和 马尔 可 夫 网 络 
(Markov Network) 两 大 类 。 贝 叶 斯 网 络 可 以 用 一 个 有 向 图 结构 
马尔 可 夫 网 络 可 以 表示 成 一 个 无 向 图 的 网 络 结构 。 更 详细 地 说 ， 概 3 
模型 包括 了 朴素 贝 叶 斯 模型 、 最 大 炳 模型 、 隐 马尔 可 夫 模型 、 条 件 随机 
场 、 主 题 模型 等 ， 在 机 器 学 习 的 诸多 场景 中 都 有 着 广泛 的 应 用 。 





01 概率 图 模型 的 联合 概率 分 布 


场景 描述 





ene ere “精彩 ”| AAE EEN 
概率 生成 的 关系 概率 图 率 分 布 不 仅 是 概率 图 模型 最 重 
asie 也 是 掌握 概率 图 模型 he 标准 。 本 节 考 查 面试 者 能 否 根 
据 贝 叶 斯 网 络 和 马尔 可 夫 网 络 的 概率 图 还 原 其 联合 概率 分 布 。 





知识 点 
概率 图 ， 贝 叶 斯 网 络 ， 马 尔 可 夫 网 络 


问题 1 能 香 写 出 图 6.1 (a) 中 贝 叶 斯 网 络 的 联合 概率 分 


布 ? 


e. o 
és óo 


(a) Rem (b) Sano 





图 6.1 概率 图 模型 


分 析 与 解答 
由 图 可 见 ， 在 给 定 A 的 条 件 下 B 和 C 是 条 件 独立 的 ， 基 于 条 件 概率 的 
定义 可 得 


peja p- B.C14) _ PAPC) 









Ca PEA 
= PCA) 
(6.1) 
同 理 ， 在 给 定 B 和 C 的 条 件 下 A 和 D 是 条 件 独立 的 ， 可 得 
P(DA,B, P(A. DIB;C) _ P(AIB.C)P(DIB, C) 
ep PAB,O) PABO 
pla.0), 
(6.2) 
由 式 (6.1) HR (6.2) 可 得 联合 概率 
P(A,B,C,D)=P(A)P(BIA)P(C|A,B)P(DIA,B,C) 
=P(A)P(BIA)P(CIA)P(DIB,C) . 
(6.3) 


问题 2 能 香 写 出 图 6.1 (b) 中 马尔 可 夫 网 络 的 联合 概率 


分 布 ? 


MERE: eevee te 


分 析 与 解答 


在 马尔 可 夫 网 络 中 ， 联 合 概率 分 布 的 定义 为 


Ps) = poo) 
wee, 





(6.4) 
其 中 C 为 图 中 最 大 团 所 构成 的 集合 ，。 Ay ime, Abe 
保证 P(x) 是 被 正确 定义 的 概 go 是 与 团 Q 对 应 的 势 函 数 。 势 函数 是 非 


负 的 ， 并 且 应 该 在 概率 较 大 的 变量 上 取得 较 大 的 值 ， 例 如 指数 函数 


Holo) 
Polo) =e "Pe", 


(6.5) 
其 中 
Ho)= 对 ayn + LB, 


(6.6) 


对 于 图 中 所 有 节点 x={x1,x2,…xn} 所 构成 的 一 个 子 集 ， 如 果 在 这 个 子 集 
中 ， 任 意 两 点 之 间 都 存在 边 相 连 ， 则 这 个 子 集 中 的 所 有 节点 构成 了 一 个 
团 。 如 果 在 这 个 子 集中 加 入 任意 其 他 节点 ， 都 不 能 构成 一 个 团 ， 则 称 这 
样 的 子 集 构成 了 一 个 最 大 团 。 


在 图 6.1 所 示 的 网 络 结构 中 ， 可 以 看 到 (A,B)、(A,O、(B,D)、(C,D) 均 
构成 团 ， 同 时 也 是 最 大 团 。 因 此 联合 概率 分 布 可 以 表示 为 





rs 


(6.7) 
如 果 采 用 式 〈6.5) 定义 的 指数 函数 作为 势 函数 ， 则 有 


H(A,B,C,D) = a, AB+a,AC + a,BD + @,CD + f,A+ B,B+ BC+ B.D, 


P(A,B,C,D) = te masco 


(6.8) 


(6.9) 


02 ”概率 图 表示 


场景 描述 


上 一 节 考 查 了 面试 者 通过 概率 图 还 原 模型 联合 概率 分 布 的 能 力 ， 本 
小 节 反 其 道 而 行 之 ， 考 查 面试 者 能 否 给 出 模型 的 概率 图 表示 。 


知识 点 
朴素 贝 叶 斯 模型 ， 概 率 图 ， 最 大 灶 模 型 


问题 1 解释 朴素 贝 叶 斯 模型 的 原理 ， 并 给 出 概率 图 模型 


示 。 


难度 ， deket 
分 析 与 解答 


朴素 贝 叶 斯 模型 通过 预测 指定 样本 属于 特定 类 别 的 概率 PCyix) 来 预 
测 该 样本 的 所 属 类 别 ， 即 
y= max PCy, |x). 
(6.10) 
PQiX) 可 以 写成 


rom EEREN 


(6.11) 


其 中 x=(xyxz.…xn) 为 样本 对 应 的 特征 向 量 ，P(x) 为 样本 的 先 验 概率 。 对 
于 特定 的 样本 x 和 任意 类 别 y;，P0) 的 取 值 均 相同 ， 并 不 会 影响 Pj) 取 
值 的 相对 大 小 ， 因 此 在 计算 中 可 以 被 忽略 。 假 设 特征 xij,x2,.…xn 相 互 独 
立 ， 可 以 得 到 : 
PO) PCy)PO)=PC ly Poy)...POAy)POD) > 
(6.12) 
其 中 PColm)，PCcly)…,PColy)， 以 及 PC) 可 以 通过 训练 样本 统计 得 到 。 


可 以 看 到 后 验 概率 P(xjly) 的 取 值 决定 了 分 类 的 结果 ， 并 且 任 意 特征 x 都 
由 yi 的 取 值 所 影响 。 因此 概率 图 模型 可 以 用 图 6.2 表 示 。 


图 6.2 村 素 贝 叶 斯 模型 的 概率 图 模型 


注意 ， 图 6.2 的 表示 为 盘 式 记 法 。 盘 式 记 法 是 一 种 简洁 的 概率 图 模 
型 表示 方法 ， 如 果 变 量 y 同 时 对 xj,x2,.…xw 这 NN 个 变量 产生 影响 ， 则 可 以 简 
记 成 图 6.2 的 形式 。 


问题 2 解释 最 大 迷 模 型 的 原理 ， 并 给 出 概率 图 模型 表 


示 。 


难度 : deete reie 


分 析 与 解答 





定性 的 度量 ， 焙 越 大 ， 不 确定 性 也 就 越 大 。 最 大 焙 原 理 是 概率 模型 学 习 
的 一 个 准则 ， 指 导 思 想 是 在 满足 deer pal MA BL 
型 ， 即 不 确定 性 最 大 的 模型 。 在 平时 生活 中 ， 我 们 也 会 有 意 无 意 地 使 用 
最 大 粹 的 准则 ， 例 如 人们 常 说 的 鸡蛋 不 能 放 在 一 个 篮子 里 ， 就 是 指 在 事 
情 具 有 不 确定 性 的 时 候 ， 我 们 倾向 于 尝试 它 的 多 种 可 能 性 ， 从 而 降低 结 
果 的 风险 。 同 时 ， 在 摸 清 了 事情 背后 的 某 种 规律 之 后 ， 可 以 加 入 一 个 约 
H, A TAARNA 在 剩 下 的 可 能 性 中 去 寻找 使 得 焙 最 
大 的 决策 。 


假设 离散 随机 变量 x 的 分 布 是 Po0)， 则 关于 分 布 P 的 焙 定 义 为 
H(P)= -F P(x)log P(x) 





(6.13) 
WAE H ARAARA BRAK, AREE ER o 


给 定 离散 随机 变量 x 和 y 上 的 条 件 概率 分 布 POykx)， 定 义 在 条 件 概率 
分 布 上 的 条 件 焙 为 


H(P)=-YPC)PL|Nlog P|) 
(6.14) 
其 中 Ex) 为 样本 在 训练 数据 集 上 的 经 验 分 布 ， 即 x 的 各 个 取 值 在 样本 中 出 
现 的 频率 统计 。 


最 大 粹 模型 就 是 要 学 习 到 合适 的 分 布 P(ylx)， 使 得 条 件 粹 H(P) 的 取 
值 最 大 。 在 对 训练 数据 集 一 无 所 知 的 情况 下 ， 最 大 糖 模型 认为 P(yl) 是 
符合 均匀 分 布 的 。 那 么 当 我 们 有 了 训练 数据 集 之 后 呢 ? 我 们 希望 从 中 找 
到 一 些 规律 ， 从 而 消除 一 些 不 确定 性 ， 这 时 就 需要 用 到 特征 函数 Kxy)。 


特征 函数 /描述 了 输入 x 和 输出 y 之 间 的 一 个 规律 ， 例 如 当 x=y 时 ，ftxwy) 等 

于 一 个 比较 大 的 正 数 。 为 了 使 学 习 到 的 模型 P(yx) 能 够 正确 捕捉 训练 数 

据 集中 的 这 一 规律 (特征 ) ， 我 们 加 入 一 个 约束 ， 使 得 特征 函数 Kxy) 关 

人 于 模型 PCylx) 和 经 验 分 布 Bx) 的 期 望 值 相 
， 即 





Ex =E), 


(6.15) 
其 中 ， 特 征 函数 fxy) 关 于 经 验 分 布 久 xy) 的 期 望 值 计 算 公式 为 
Ef) = DPF) 
(6.16) 
Poy) KF BLP x) AIEEE 47 TH POOH ELL SE A 
E P= PPG DL») 
(6.17) 


综 上 ， 给 定 训练 数据 集 7= (04,9402, Var), PASM EP E BR BL 
LGD, KAN 等 价 于 约束 最 优化 问题 : 


max H(P) = -POPO |x)log PCy |x), 











st E)E S) MAN M, 
Erol»=1 


(6.18) 
REJET AFERAK AE RERA 


Rolde Suse] 


(6.19) 


SRA, KMS WEN Siw, EAP REAL 
从 概率 图 模型 的 角度 理解 ， 我 们 可 以 看 到 PuCylx) 的 表达 形式 非常 类 似 于 
势 函 数 为 指数 函数 的 马尔 可 夫 网 络 ， 其 中 变量 x 和 y 构 成 了 一 个 最 大 团 ， 
如 图 6.3 所 示 。 





> 


图 63 ACNE AN APR 


03 ”生成 式 模型 与 判别 式 模型 


生成 式 模型 和 判别 式 模型 的 区 别 是 机 器 学 习 领 域 非常 重要 的 基础 知 
识 ， 也 是 经 常用 来 考察 面试 者 的 面试 题 ， 但 能 准确 区 分 开 二 者 并 不 是 一 
件 非常 容易 的 事情 ， 本 节 希 望 给 读者 一 个 正确 的 认识 。 





知识 点 
生成 式 模型 ， 判 别 式 模型 


问题 常见 的 概率 图 模型 中 ， 哪 些 是 生成 式 模型 ， 哪 些 
是 判别 式 模型 ? 


难度 : teks 


分 析 与 解答 


要 想 正确 回答 这 个 问题 首先 要 和 弄 清楚 生成 式 模型 和 判别 式 模型 的 区 
别 。 假 设 可 观测 到 的 变量 集合 为 X， 需 要 预测 的 变量 集合 为 Y， 其 他 的 变 
量 集合 为 Z。 生 成 式 模型 是 对 联合 概率 分 布 ,Z) 进 行 建 模 ， 在 给 定 观 
测 集合 xX 的 条 件 下 ， 通 过 计算 边缘 分 布 来 得 到 对 变量 集合 Y 的 推断 ， 即 


-PAD PAY) 
Prin- ph "T, AAT), 











(6.20) 


判别 式 模型 是 直接 对 条 件 概率 分 布 P(Y,ZDO 进 行 建 模 ， 然 后 消 掉 无 关 变 
量 Z 就 可 以 得 到 对 变量 集合 Y 的 预测 ， 即 


PIY|X)= BP(Y,ZIX) 


(6.21) 


es ee Se ARR, R, a 
尔 可 夫 模 型 、 条 件 随机 场 、pLSA、LDA 等 。 基 于 前 面 的 问题 解答 ， 我 
们 知道 朴素 贝 叶 斯 、 贝 叶 斯 网 络 、pPLSA、LDA 等 模型 都 是 先 对 联合 概 
率 分 布 进行 建 模 ， 然 后 再 通过 计算 边缘 分 布 得 到 对 变量 的 预测 ， 所 以 它 
们 都 属于 生成 式 模型 ， 而 最 大 焙 模 型 是 直接 对 条 件 概率 分 布 进行 建 模 ， 
因此 属于 判别 式 模型 。 隐 马尔 可 夫 模 型 和 条 件 随 机 场 模型 是 对 序列 数据 
进行 建 模 的 方法 ， 将 在 后 面 的 章节 中 详细 介绍 ， 其 中 隐 马 尔 可 夫 模 型 属 
于 生成 式 模型 ， 条 件 随机 场 属于 判别 式 模型 。 


在 介绍 隐 马 尔 可 夫 模型 之 前 ， 先 简单 了 解 马尔 可 夫 过 程 。 马 尔 可 夫 
过 程 是 满足 无 后 效 性 的 随机 过 程 。 假 设 一 个 随机 过 程 中 ，& 时 刻 的 状 
态 x 的 条 件 分 布 ， 仅 仅 与 其 前 一 个 状态 x,-y 有 关 ， 即 Psy,x2.…% 
-J)=P(xnlxn-1)， 则 将 其 称 为 马尔 可 夫 过 程 ， 时 间 和 状态 的 取 值 都 是 离散 
的 马尔 可 夫 过 程 也 称 为 马尔 可 夫 链 ， 如 图 6.4 所 示 。 


图 6.4 马尔 可 夫 链 


隐 马 尔 可 夫 模 型 是 对 含有 未 知 参数 〈 隐 状态 ) 的 马尔 可 夫 链 进 行 建 
模 的 生成 模型 ， 概 率 图 模型 如 图 6.5 所 示 。 在 简单 的 马尔 可 夫 模 型 中 ， 








所 有 状态 对 于 观测 者 都 是 可 见 的 ， 因 此 在 马尔 可 夫 模 型 中 仅仅 包括 状 
间 的 转移 概率 。 而 在 隐 马 尔 可 夫 模 型 中 ， 态 x%i 对 于 观测 者 不 
可 见 的 ， 观 测 者 能 观测 到 的 只 有 每 个 隐 状 态 x% 对 应 的 输出 mr， 而 观测 状 
态 yi 的 概率 分 布 仅仅 取决 于 对 应 的 隐 隐 马 尔 可 夫 模型 中 ， 参 
数 包括 了 隐 状 态 间 的 转移 概率 、 隐 状态 到 观 > 的 输出 概率 、 隐 状 
态 x 的 取 值 空间 、 观 测 状 态 y 的 取 值 空间 以 及 初始 状态 的 概率 分 布 。 


nee et 


图 65 隐 马 尔 可 夫 模型 











知识 点 
马尔 可 夫 模型 ， 隐 马尔 可 夫 模型 


问题 1 如 何 对 中 文 分 词 问题 用 隐 马 尔 可 夫 模 型 进行 建 模 
和 训练 ? 


难度 : ake deste ste 
分 析 与 解答 


下 面 用 一 个 简单 的 例子 来 说 明 隐 马 尔 可 夫 模 型 的 建 模 过 程 。 


假设 有 3 个 不 同 的 葫芦 ， 每 个 葫芦 里 有 好 药 和 坏 药 若干 ， 现 在 从 3 个 
葫芦 中 按 以 下 规则 倒 出 药 来 。 


(1) 随机 挑选 一 个 戎 芦 。 

(2) 从 葫芦 里 倒 出 一 颗 药 ， 记 录 是 好 药 还 是 坏 药 后 将 药 放 回 。 
G) 从 当前 葫芦 依照 一 定 的 概率 转移 到 下 一 个 葫芦 。 

(4) 重复 步骤 (2) 和 (3) 。 


在 整个 过 程 中 ， 我 们 并 不 知道 每 次 拿 到 的 是 哪 一 个 葫芦 。 用 隐 马 尔 
可 夫 模 型 来 描述 以 上 过 程 ， 隐 状态 就 是 当前 是 哪 一 个 葫芦 ， 隐 状态 的 取 
值 空间 为 { 葫 芦 1， as 葫芦 3}， 观 测 状态 的 取 值 空间 为 { 好 药 ， 坏 
分 布 就 是 第 (1) 步 随机 挑选 葫芦 的 概率 分 布 ， 隐 
移 概率 就 是 从 当前 葫芦 转移 到 下 一 个 戎 芦 的 概率 ， 而 隐 状 态 
态 的 输出 概率 就 是 每 个 葫芦 里 好 药 和 坏 药 的 概率 。 记 录 下 来 的 
药 的 顺序 就 是 观测 状态 的 序列 ， 而 每 次 拿 到 的 葫芦 的 顺序 就 是 隐 状 态 的 
序列 。 
















隐 马 尔 可 夫 模 型 包括 概率 计算 问题 、 预 测 问题 、 学 习 问题 三 个 基本 
问题 。 


(1) 概率 计算 问题 : 已 知 模型 的 所 有 参数 ， 计 算 观测 序列 Y 出 现 的 
概率 ， 可 使 用 前 向 和 后 向 算法 求解 。 


(2) 预测 问题 ， 已 知 模型 所 有 参数 和 观测 序列 Y， 计 算 最 可 能 的 隐 
序列 X， 可 使 用 和 经 典 的 动态 规划 算法 一 一 维特 比 算法 来 求解 最 可 能 
大 态 序列 。 


(3) 学 习 问题 ， 已 知 观测 序列 Y， 求 解 使 得 该 观测 序列 概率 最 大 的 
模型 参数 ， 包 括 隐 状 态 序列 、 隐 状态 之 间 的 转移 概率 分 布 以 及 从 隐 状 态 
到 观测 状态 的 概率 分 布 ， 可 使 用 Baum-Welch 算 法 进行 参数 的 学 习 ， 
Baum-Welch 算 法 是 最 大 期 望 算法 的 一 个 特例 。 


上 面 提 到 的 问题 和 算法 在 此 不 多 做 介绍 ， 感 兴趣 的 读者 可 以 查阅 相 
关 资 料 。 下 面 回 到 开头 的 问题 。 隐 马尔 可 夫 模 型 通常 
问题 ， 因 此 也 可 以 将 分 词 问题 转化 为 一 个 序列 志 
HT LAYS PL F 
的 最 后 一 个 字 
Ee 
识 ，B 和 M 后 面 只 能 是 
是 WEN 

















， 相 当 于 
A AK AA NM 布 进行 
。 无 监督 训练 可 以 用 上 文 提 到 的 Baum-Welch 算 法 ， 同 时 
ER ETRE ts 


问题 2 RAMS AT A Aa th Se Rr ENRE ME 
题 ? 如 何 解 决 ? 


难度 : 交友 交友 立 


分 析 与 解答 


隐 马 尔 可 夫 模型 等 用 于 解决 序列 标注 问题 的 模型 中 ， 常 常 对 标注 进 
行 了 独立 性 假设 。 以 隐 马 尔 可 夫 模型 为 例 介绍 标注 偏 置 问题 Label 


Bias Problem) 。 

在 隐 马 尔 可 夫 模型 中 ， 假 设 隐 状 ; 
满足 马尔 可 夫 过 程 ，t 时 刻 的 状态 x, 的 条 件 分 布 ， 仅 仅 与 其 前 一 个 
Wax, AK, MCR .xi-D=P(xixi-D); 同时 隐 马 尔 可 夫 模 型 假设 
观测 序列 中 各 个 状态 仅仅 取决 于 它 对 应 的 隐 4 (VAX Xa, XYY 2-0 
ST AR TY FAA AT E T BAR AS = 





( 即 序列 标注 问题 中 的 























H, 被 标注 本 身 以 前 pete 
注 有 关 ， 还 依赖 于 上 下 文中 的 其 他 词 ， 于 是 引出 了 最 大 炳 马尔 可 夫 模 型 
(Maximum Entropy Markov Model, MEMM) ， 如 图 6.6 所 示 。 RAH 
马尔 可 夫 模型 在 建 模 时 ， 去 除了 隐 马 尔 可 夫 模型 中 观测 状 ; 
假设 ， 考 虑 了 整个 观测 序列 ， 因 此 获得 了 更 强 的 表达 能 力 


时 隐 状 il E f 
HERREN, RART RRR E ERT BREIE E 
PCyl9) 进 行 建 模 的 判别 式 模型 。 





图 6.6 最 大 坑 马 尔 可 夫 模 型 
最 大 炳 马尔 可 夫 模型 建 模 如 下 


Plating) =T JOC spe) 


(6.22) 


HPPO, Xi Ton A ERETI Ae, BIE EREET ARAL 
之 后 计算 概率 ， 计 算 公式 为 





XP(F ON Ves) 
POD Yren) = ERA 
(6.23) 
其 中 Z 为 归 一 化 因子 
ZX, Stn) = DAP (Xa Sinn) 
(6.24) 


PEF Xa Von) Xio Vren A FE RE BEI 


BAG ABT RRNA, MER. TAR 
现 ， 状 态 1 倾 向 于 转移 到 状态 2， 状 态 2 倾向 于 转移 到 状态 2 本 身 。 但 是 实 
际 计算 得 到 的 最 大 概率 路 径 是 1->1->1->1， 状 态 1 并 没有 转移 到 状态 2， 
如 图 6.8 所 示 。 这 是 因为 ， 从 状态 2 转移 出 去 可 能 的 状态 包括 1、2、3、 
4、5， 概 率 在 可 能 的 状态 上 分 散 了 ， 而 状态 1 转移 出 去 的 可 能 状态 仅仅 
为 状态 1 和 2， 概 率 更 加 集中 。 由 于 局 部 归 一 化 的 影响 ， 隐 状态 会 倾向 于 
转移 到 那些 后 续 状 态 可 能 更 少 的 状态 上 ， 以 提高 整体 的 后 验 概 率 。 这 就 
是 标注 偏 置 问题 。 













"sO 
nai @ 
xs @ 


局 部 转移 概率 表明: 
“状态 1 几乎 总 是 容易 跳 到 状态 2。 
“状态 2 几乎 总 是 容易 停留 在 状态 2。 
图 6.7 最 大 炳 马尔 可 夫 模 型 示例 
观测 1 观测 2 观测 3 mans 
eet wa ws w 


状态 2 


"sO 
s: @® 
ws @ 


最 可 能 路 径 : 1->1->1->1 
图 68 HERH 


条 件 随机 场 (Conditional Random Field, CRF) 在 最 大 糖 马尔 可 夫 
模型 的 基础 上 ， 进 行 了 全 局 归 一 化 ， 如 图 6.9 所 示 。 





图 69 条件 随机 场 
条 件 随 机 场 建 模 如 下 


PR Don 








X gheo. BaD) 


(6.25) 


其 中 归 一 化 因子 Z(y1. nj) 是 在 全 局 范围 进行 归 一 化 ， 枚 举 了 整个 隐 状 态 序 
Bx, ,的 全 部 可 能 ， 从 而 解决 了 局 部 归 一 化 带 来 的 标注 偏 置 问题 。 


贝 时 斯 理论 与 “上帝 的 存在 " 
a RAFA 





学 习 背景 的 同学 不 可 
) 初 更， 确实 还 是 一 个 很 有 意思 的 故 
上 帝 的 存在 *。 


长 老 会 的 牧师 ，1763 年 ， 贝 时 斯 发 表 
理论 的 基础 。 在 这 篇 文章 中 ， 贝 叶 










生活 在 18 世 纪 的 贝 叶 斯 本 职工 作 是 一 位 英格兰 
论文 《 论 有 关机 近 问 题 的 求解 》， 庙 定 了 贝 叶 斯 统 i 
斯 提出 了 解决 框架 ， 就 是 用 不 断 增加 的 信息 和 经 验 ， PDEA Be ALOR A 
知 ， 并 给 出 了 算法 。 但 贝 叶 斯 关注 的 原始 间 人 能 不 能 根据 凡人 世界 
的 经 验 和 现实 世界 的 证 据 来 证 明 上 帝 的 存在 。 因 为 宗教 人 士 的 迎 辑 就 是 基于 上 帝 存 在 的 
主要 证 据 ， 能 够 认识 机 遇 的 规律 ， 几 乎 等 同 于 证 明 上 帝 的 存在 。 
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AH, preterit cians ta hacia ie 很 多 人 被 
此 观点 迷 三 了 ， 认 为 牛顿 是 晚年 才 相信 上 帝 的 ， 这 是 错 的 。 牛 顿 是 自 幼 纹 信封 上 帝 . 
古 册 几何 学 的 办 法 来 描述 微 积分 。 由 此 看 由 ， 古 希腊 数学 家 用 数 
学 探索 世界， 而 牛顿 是 打算 估 二 希 及 数学 家 那样 ， 用 数学 来 探索 上 浅 。 


归 ， 不 管 初 豆 是 怎样 ， 贝 时 斯 和 牛顿 最 终 都 为 所 在 的 领域 甚至 全 人 类 的 发 
e 而 人 关 对 于 "上 帝 ” 的 认识 也 更 趋 理性 和 全 面 。 








05 主题 模型 















场景 描述 
基于 词 袋 模型 或 N-gram 模型 的 文本 表示 模型 有 一 个 明显 的 缺陷 ， 就 
是 无 法 识别 出 两 个 不 同 司 组 具有 相同 的 主题 。 因 此 ， 需 要 一 种 技 
术 能 够 将 具有 相同 主题 的 词 或 词组 映射 到 同一 维度 上 去 ， 于 是 产生 了 主 
prn ,想象 下 我 们 如 位 淹 是 机 


peop eke Ren 


SURS. MRE 

f 维 的 主题 向 量 ， 其 中 向 量 的 每 一 
维 代表 一 个 主题 ， 权 重 代表 这 篇 文章 属于 这 个 特定 主题 的 概率 。 主 题 模 
型 所 解决 的 事情 ， 就 是 从 文本 库 中 发 现 有 代表 性 的 主题 (得 到 每 个 主题 
上 面 词 的 分 布 ) ， 并 且 计 算出 每 篇 文章 对 应 着 哪些 主题 。 





知识 点 


pLSA (Probabilistic Latent Semantic Analysis) , LDA (Latent 
Dirichlet Allocation) 


问题 1 常见 的 主题 模型 有 哪些 ? 试 介绍 其 原理 。 


WERE: kerrie 


分 析 与 解答 


= pLsA 


PLSA 是 用 一 个 生成 模型 来 建 模 文章 的 生成 过 程 。 假 设 有 K 个 主 
it “ 章 ， 对 语料库 中 的 任意 文章 d， 假 设 该 文章 有 N 个 词 ， 则 对 于 
其 中 的 每 一 个 词 ， 我 们 首先 选择 一 个 主题 z， 然 后 在 当前 主题 的 基础 上 
生成 一 个 词 w。 图 6.10 是 pLSA 图 模型 。 


人 TO 一 个 


d = w 
































图 6.10 pLSA 图 模型 


生成 主题 z 和 词 w 的 过 程 遵照 一 个 确定 的 概率 分 布 。 设 在 文章 d 中 生 
成 主题 的 概率 为 p(z|d)， 在 选 定 主 题 的 条 件 下 生成 词 w 的 概率 为 p(wlz)， 


qd, d) d 
EE E T E ET E PC"15dPC | 由 
在 这 里 我 们 做 一 个 简化 ， 假 设 给 定 主题 :的 条 件 下 ， 生 成 词 w 的 概率 是 与 


a z\d 
pie EA, Matat les 20 ae) 
整个 语 料 库 中 的 文本 生成 裤 率 可 以 用 似 然 函数 表示 为 


ux 
L=] J] [eG ) 











(6.26) 


wn 的 概率 ， 与 上 文中 的 
达 ; cdmwn) 是 在 第 m 篇 文 





其 中 p(dmwn) 是 在 第 m 篇 文章 d, 中 ， 出 现 单 
p(wld) 的 含义 是 相同 的 ， 只 是 换 了 一 种 符号 
章 dn 中 ， 单 词 w, 出 现 的 次 数 。 





于 是 ，Log 似 然 函 数 可 以 写成 : 
US È 'e(d„,w,)log pld» w,) 


22 (dnw, poe Spt Dp 1da )plw, |24), 


(6.27) 






在 上 面 的 公式 中 ， 定 义 在 文章 上 的 主题 分 布 p(zjdm) 和 定义 在 主题 上 
分 布 p(wnlzg 是 待 估计 的 参数 。 我 们 需要 找到 最 优 的 参数 ， 使 得 整个 语 料 
库 的 Log 似 然 函数 最 大 化 。 由 于 参数 中 包含 的 z 是 隐 含 变量 〈 即 无 法 直 
接 观 测 到 的 变量 ) ， 因 此 无 法 用 最 大 似 然 估计 直接 求解 ， 可 以 利用 最 大 
期 望 算法 来 解决 。 


mLDA 


LDA 可 以 看 作 是 pLSA 的 贝 叶 斯 版 本 ， 其 文本 生成 过 程 与 pLSA 基 本 
相同 ， 不 同 的 是 为 主题 分 布 和 词 分 布 分 别 加 了 两 个 狄 利克 雷 
(Dirichlet) 先 验 。 为 什么 要 加 入 狄 利克 雷 先 验 呢 ? 要 从 频率 学 派 
和 贝 叶 斯 学 派 的 区 别 说 起 。 eee scene 将 每 篇 文章 对 
应 的 主题 分 布 p(zyld,,) 和 每 个 主题 对 应 的 词 分 布 p(wlzi) 看 成 确定 的 未 知 
常数 ， 并 可 以 求解 出 来 ， 而 LDA 采 用 的 是 贝 叶 斯 学 派 的 思想 ， 认 为 待 估 
计 的 参数 (主题 分 布 和 词 分 布 ) 不 再 是 一 个 固定 服从 一 定 
分 布 的 随机 变量 。 这 个 分 布 符合 一 定 的 先 验 布 ( 即 狄 利克 雷 分 

) ， 并 且 在 观察 信息 之 后 ， 可 以 对 先 验 分 布 进行 修正 ， 从 而 得 
到 后 验 分 布 。LDA 之 所 以 选择 狄 利克 雷 分 布 作为 先 验 分 布 ， 是 因为 它 为 
多 项 式 分 布 的 共 县 先 验 概率 分 布 ， 后 验 概率 依然 服从 狄 利克 雷 分 布 ， 这 
样 做 可 以 为 计算 带 来 便利 。 图 6.11 是 LDA 的 图 模型 ， 其 中 a，B 分 别 为 两 
个 狄 利克 雷 分 布 的 超 参数 ， 
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图 611 LDA 图 模型 
语料库 的 生成 过 程 为 : 对 文本 库 中 的 每 一 篇 文档 4， 采 用 以 下 操作 
(1) 从 超 参 数 为 a 的 犹 利克 雷 分 布 中 抽样 生成 文档 gd 的 主题 分 布 


(2) 对 文档 4 中 的 每 一 个 词 进行 以 下 3 个 操作 。 


。 从 代表 主题 的 多 项 式 分 布 bi 中 抽样 生成 它 所 对 应 的 主题 zj 
。 从 超 参数 为 8 的 狄 利克 雷 分 布 中 抽样 生成 主题 石 对 应 的 词 分 布 Wi 
。 从 代表 词 的 多 项 式 分 布 %Wmj 中 抽样 生成 词 wi。 


我 们 要 求解 出 主题 Sp AiO, UA Dia ABV, MN, 可 以 用 吉 布 斯 采 
样 (Gibbs Sampling) 的 方式 实现 。 首先 随机 给 定 每 个 单词 的 主题 ， 然 
后 在 其 他 变量 固定 的 情况 下 ， 根据 转移 概率 抽样 生成 和 个 单词 的 新 主 
给 定 文章 中 的 所 有 单词 
条 件 下 该 单词 对 应 为 各 个 新 
主题 的 概率 。 最 后 ， 经 过 反复 迁 代 ， 我 们 可 以 根据 收敛 后 的 采样 结果 计 
算 主题 分 布 和 词 分 布 的 期 望 。 








问题 2 如 何 确定 LDA 模 型 中 的 主题 个 数 ? 


难度 交友 立交 六 
分 析 与 解答 


在 LDA 中 ,主题 ce ee 对 于 模型 超 参 
数 的 选择 ， 实 践 分 成 训练 
测试 集 3 部 分 ， 然 后 利用 验 EDY 
的 主题 个 数 时 ， 我 们 可 以 随机 选取 60% i 

文档 组 成 验证 集 ， 剩 下 20% 的 文档 组 成 测试 集 。 在 训练 时 ， 尝 试 多 组 超 
参数 的 取 值 ， 并 在 验证 集 上 检验 哪 一 组 超 参数 所 对 应 的 模型 取得 了 最 好 
的 效果 。 最 终 ， 在 验证 集 上 效果 最 好 的 一 组 超 参 数 和 其 对 应 的 模型 将 被 






在 确定 LDA 
， 另 外 20% 的 








选 定 ， 并 在 测试 集 上 进行 测试 。 

为 了 衡量 LDA 模 型 在 验证 集 和 测 i 
的 评估 指标 。 一 个 常用 的 评估 指标 是 
合 D 上 ， 模 型 的 困惑 度 被 定义 为 









的 效果 ， 需 要 寻找 一 个 合适 
度 (perplexity) 。 在 文档 集 








Flog por.) 
perplexity(D) =exp1 — 





mM 





(6.28) 
其 中 M 为 文档 的 总 数 ，wy 为 文档 g 中 单词 所 组 成 的 词 伐 向 量 ，p(wa) 为 模 
型 所 预测 的 文档 4 的 生成 概率 ，No 为 文档 q 中 单词 的 总 数 。 


一 开始 ， 随 着 主题 个 数 的 增多 ， 模 型 在 训练 集 和 验证 集 的 困惑 度 呈 
下 降 趋势 ， 但 是 当主 题 数目 足够 大 的 时 候 ， 会 出 











指标 在 训练 集 上 继续 下 降 但 在 验证 集 上 反 
的 困惑 度 极 小 值 点 所 对 应 的 主题 个 
极 小 值 点 可 能 出 现在 主 





候 ， 然 而 实 | 
如 此 大 的 主题 数目 ， 这 | ENAMA TEMG AE 
行 选择 ， 比 如 选择 合理 范围 度 的 下 降 明显 变 慢 〔 拐 点 ) 的 时 候 。 


另外 一 种 方法 是 在 LDA 基 础 之 上 融入 分 层 狄 利克 雷 过 程 
(Hierarchical Dirichlet Process, HDP) ， 构 成 一 种 非 参 数 主题 模型 
HDP-LDA。 非 参数 主题 模型 的 好 处 是 不 需要 预先 指定 主题 的 个 数 ， 模 
型 可 以 随 着 文档 数目 的 变化 而 自动 对 主题 个 数 进行 调整 ， 它 的 缺点 是 在 
LDA 基 础 上 融入 HDP 之 后 使 得 整个 概率 图 模型 更 加 复杂 ， 训 练 速度 也 更 
加 缓慢 ， 因 此 在 实际 应 用 中 还 是 经 常 采用 第 一 种 方法 确定 合适 的 主题 数 
目 。 


问题 3 如 何 用 主题 模型 解决 推荐 系统 中 的 冷 启动 问题 ? 


难度 : detects a 


分 析 与 解答 


首先 对 题目 做 进一步 的 解释 。 推 荐 系统 中 的 冷 启动 问题 是 指 在 没有 
大 量 用 户 数据 的 情况 下 如 何 给 用 户 进行 个 性 化 推荐 ， 目 的 是 最 优化 点 击 
率 、 转 化 率 或 用 户 体验 (用 户 停留 时 间 、 留 存 率 等 )》。 冷 启动 问题 一 般 
分 为 用 户 冷 启 动 、 物 品 冷 启动 和 系统 ; 大 类 。 用 户 冷 启 动 是 指 对 









一 个 之 前 没有 行为 或 行为 极 少 的 新 用 户 进行 推荐 ， 物 品 冷 启动 是 指 为 一 
个 新 上 市 的 商品 或 电影 (这 时 没有 与 之 相关 的 评分 或 用 户 行为 数据 ) 寻 
找到 具有 潜在 兴趣 的 用 户 冷 启动 是 指 如 何 为 一 个 新 开发 的 网 站 设 
计 个 性 化 推荐 系统 。 


解决 冷 启动 问题 的 方法 一 般 是 基于 内 容 的 推荐 。 以 Hulu 的 场景 为 
例 ， 对 于 用 户 冷 启动 来 说 ， 我 们 希望 根据 用 户 的 注册 
性 别 、 爱 好 等 ) 、 搜 索 关键 词 或 者 合法 站 外 得 到 的 其 他 
人 局 ee 登录 ， 并 得 到 授权 ， 可 以 得 到 Facebook 中 的 朋友 关系 

得 到 用 户 的 兴趣 主题 之 后 ， 我 们 
E 用 户 ， 通 过 他 们 的 历史 行为 来 
预测 用 户 感 兴趣 的 电影 是 什么 。 同 样 地 ， 对 于 物品 冷 启动 问题 ， 我 们 也 
可 以 根据 电影 的 导演 、 演 员 、 类 别 、 关 键 词 等 信息 推测 该 电影 所 属于 的 
主题 ， 然 后 基于 主题 向 量 找到 相似 的 电影 ， EEEREN 
看 这 些 相似 电影 的 用 户 。 可 以 使 用 主题 模型 (pPLSA、LDA 等 ) 得 到 用 
户 和 电影 的 主题 。 以 用 户 为 例 ， 我 们 将 每 个 用 户 看 作 主 题 模 型 中 的 一 篇 
文档 ， 用 户 对 应 的 特征 作为 文档 中 的 单词 ， 这 样 每 个 用 户 可 以 表示 成 一 
袋子 特征 的 形式 。 通 过 主题 模型 学 习 之 后 共同 出 现 的 特征 将 会 对 
应 同一 个 主题 ， 同 时 每 个 用 户 也 会 相应 地 得 到 一 个 主题 分 布 。 每 个 电影 
的 主题 分 布 也 可 以 用 类 似 的 方法 得 到 。 


那么 如 何 解决 系统 冷 启动 问题 呢 ? 首先 可 以 得 到 每 个 用 户 和 电影 对 
应 的 主题 向 量 ， 除 此 之 外 ， 还 需要 知道 用 户主 题 和 电影 主题 之 间 的 偏好 
程度 ， 也 就 是 吧 题 的 用 户 可 能 喜欢 哪些 主题 的 电影 
任何 数据 时 ， 我 们 需要 一 些 先 验 知识 来 指定 ， 并 且 由 于 主题 的 数目 通常 
比较 小 ， 随 着 系统 的 上 线 ， 收 集 到 少量 的 数据 之 后 我 们 就 可 以 对 主题 之 
间 的 偏好 程度 得 到 一 个 比较 准确 的 估计 。 






































第 7 章 ”优化 算法 







i 做 的 3 
AEE BE 
机 对 应 的 模型 表征 币 
归 对 应 的 模型 表征 和 ARP DOSER PLUS, 


随 着 大 数据 和 深度 学 习 的 迅猛 发 展 ， 在 实际 应 用 中 面临 的 大 多 是 大 
规模 、 高 度 非 凸 的 优化 问题 ， 这 给 传统 的 基于 全 量 数据 、 凸 优化 的 优化 
理论 带 来 了 巨大 的 挑战 。 如 何 设计 适用 于 新 场景 的 、 高 效 的 、 准 确 的 优 
化 算法 成 为 近年 来 的 研究 热点 。 优 化 虽然 是 一 门 古老 的 学 ah 但 是 大 部 
分 能 够 用 于 训练 深度 神经 网 络 的 优化 算法 都 是 近 几 年 才 被 提出 ， 如 
Adam 算 法 等 。 


虽然 ， 目 前 大 部 分 机 器 学 习 的 工具 已 经 内 置 了 常用 的 优化 算法 ， 实 
际 应 用 时 只 需要 一 行 代码 即 可 完成 调用 。 但 是 ， 鉴 于 优化 算法 在 机 器 学 
习 中 的 重要 作用 ， 了 解 优化 算法 的 原理 也 很 有 必要 。 














01 有 监督 学 习 的 损失 函数 


机 器 学 习 算法 的 关键 一 环 是 模型 评估 ， 而 损失 函数 定义 了 模型 的 评 
佑 指标 。 可 以 说 ， 没 有 损失 函数 就 无 法 求解 模型 参数 。 不 同 的 损失 函数 
优化 难度 不 同 ， 最 终 得 到 的 模型 参数 也 不 同 ， 针 对 具体 的 问题 需要 选取 
合适 的 损失 函数 。 





知识 点 
损失 函数 


问题 有 监督 学 习 涉 及 的 损失 函数 有 哪些? 请 列举 并 简 
述 它们 的 





难度 : deers oe 


分 析 与 解答 


在 有 监督 学 习 中 ， 损 失 函数 刻画 了 模型 和 训练 样本 的 匹配 程度 。 假 
设 训 练 样本 的 形式 为 (x，y)， 其 中 xEX 表 示 第 i 个 样本 点 的 特征 ，y,EY 
表示 该 样本 点 的 标签 。 参 数 为 9 的 模型 可 以 表示 为 函数 /(…, 90): 六 一 了 ， 
BEREA Wn eh 
的 匹配 程度 ， 定 义 损失 函数 L(*，*): 了 Xx》 Rap, LLG; O) yR, 

表明 模型 在 该 样本 点 匹配 得 越 好 。 








对 二 分 类 问题 ，Y={1,-1}， 我 们 希望 sign ftx,9)=y;， 最 自然 的 损失 
函数 是 0-1 损 失 ， 即 


Laf Y)=1p<0 + 
(7.D 


其 中 1p 是 指示 函数 《Indicator Function) ， 当 上 且 仅 当 P 为 真 时 取 值 为 1， 
否则 取 值 为 0。 该 损失 函数 能 够 直观 地 刻画 分 类 的 错误 率 ， 但 是 由 于 其 
非 凸 、 非 光滑 的 特点 ， 使 得 算法 很 难 直 接 对 该 函数 进行 优化 。0-1 损 失 
的 一 个 代理 损失 函数 是 Hinge 损 失 函 数 : 


Linge (f> y) = max {0,1— fy}. 





LAR 


Hinge 损 失 函 数 是 0-1 损 失 函 数 相对 紧 的 马上 界 ， 且 当 fy>1 时 ， 该 函数 不 
对 其 做 任何 惩罚 。Hinge 损 失 在 fy=1 处 不 可 导 ， 因 此 不 能 用 梯度 下 降 法 
进行 优化 ， 而 是 用 次 梯度 下 降 法 (Subgradient Descent Method) 。0-1 损 
失 的 另 一 个 代理 损失 函数 是 Logistic 损 失 函 数 : 


Dosisie (f+ y) = log, (1+ exp(—f)- 





(7.3) 


Logistic 损 失 函 数 也 是 0-1 损 失 函 数 的 凸 上 界 ， 且 该 函数 处 处 光滑 ， 因 此 
TARTE pie 但 是 ， 该 损失 函数 对 所 有 的 样本 点 都 有 所 
惩罚 ， 因 此 对 异常 值 相 对 更 敏感 一 些 。 当 预测 值 / ef- 时， 另 一 个 常用 
(CLE BA IRS (Cross Entropy) 损失 函数 : 








Les enor (太刀 = -1083 ( +2), 
(74) 


BESET Ke PR BCU FEO- R PANT ETAT LE FR AER K PA BEC ih 
线 如 图 7.1 所 示 。 
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图 7.1 二 分 类 问题 的 损失 函数 
对 于 回归 问题 ,Y=R， 我 们 希望 _ 了 (%,0)% 最 常用 的 损失 函数 是 
平方 损失 函数 
Llf DA- . 
(7.5) 


平方 损失 函数 是 光滑 函数 ， 能 够 用 梯度 下 降 法 进行 优化 。 然 而 ， 当 预测 
值 距 离 真 实 值 越 远 时 ， 平 方 损失 函数 的 惩罚 力度 越 大 ， 因 此 它 对 异常 点 
比较 敏感 。 为 了 解决 该 问题 ， 可 以 采用 绝对 损失 函数 


Liwe fS -Y 







(7.6) 


绝对 损失 函数 相当 于 是 在 ee 相 比 做 均值 回归 的 平方 损失 函 
数 ， 绝 对 损失 函数 对 异常 点 更 鲁 棒 一 是 ， 绝 对 损失 函数 在 户 y 处 
无 法 求 导数 。 综 合 考虑 可 导 性 和 对 异常 点 的 鲁 棒 性 ， 可 以 采用 Huber 损 
失 函 数 





CU- 站， 17-?E5 


人 17-yPs 


(7.7) 


较 小 时 为 平方 损失 ， 在 | 广 y 较 大 时 为 线性 损失 ， 处 
棒 。 这 三 种 损失 函数 的 曲线 如 图 7.2 所 示 。 





Huber 损 失 函 数 
处 可 导 ， 且 对 异 
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图 7.2 回归 问题 的 损失 丽 数 
损失 函数 还 有 很 多 种 ， 这 里 只 是 简单 介绍 几 种 比较 常见 的 ， 不 再 过 


多 效 述 。 在 实际 应 用 中 ， 要 针对 特定 问题 和 模型 ， 选 择 合适 的 损失 函 
数 ， 具 体 分 析 它 的 优 缺 点 。 


02 机 器 学 习 中 的 优化 问题 


场景 描述 


大 部 分 机 器 学 习 模型 的 参数 估计 问题 都 可 以 写成 优化 问题 。 机 器 学 
习 模型 不 同 ， 损 失 函 数 不 同 ， 对 应 的 优化 问题 也 各 不 相同 。 了 解 优化 问 
题 的 形式 和 特点 ， 能 帮助 我 们 更 有 效 地 求解 问题 ， 得 到 模型 参数 ， 从 而 


达到 学 习 的 目的 。 
知识 点 
凸 优化 基本 概念 


问题 ”机 器 学 习 中 的 优化 问题 ， 哪 些 是 凸 优化 问题 ， 哪 
些 是 非 凸 优化 问题 ? 请 各 举 一 个 例子 。 





难度 : deters te 


分 析 与 解答 





要 回答 这 个 问题 ， 需 要 先 弄 明白 什么 是 凸 函数 印 。 它 的 严格 定义 
为 ， 函 数 L() 是 凸 函 数 当 且 仅 当 对 定义 域 中 的 任意 两 点 x，y 和 任意 实数 
ME[0.H] 总 有 

L(Ax+(1-A)y) © AL(x) +(I- DLO). 
(7.8) 


该 不 等 式 的 一 个 直观 解释 是 ， 凸 函数 曲面 上 任意 两 点 连接 而 成 的 线段 ， 
其 上 的 任意 一 点 都 不 会 处 于 该 函数 曲面 的 下 方 ， 如 图 7.3 所 示 。 
Go Le) 
Gs Li) 
图 7.3 ARE 
一 个 常用 的 机 器 学 习 模型 ， 逻 辑 回归 ， 对 应 的 优化 问题 就 是 凸 优化 
问题 。 具 体 来 说 ， 对 于 二 分 类 问题 ，r= 了 -0， 假 设 模型 参数 为 9， 则 届 
辑 回归 的 优化 问题 为 


min L(0) = Ý togli +exp(-3,0")) 


(7.9) 
AY DLS StH E ARER SUK — Wr Hessian kE HE. 2 
L,(0) =log(1+ exp(—y,0"x, », 
(7.10) 
对 该 函数 求 一 阶 导 ， 得 到 
WhO Tr PHO 
(711) 


ABER S, ERAH Hessian ih pE 





DA + exp Ox, 


à, Pi as ee a aE a 
TROS Treo 





D 0s) a 
© (exp) 


(7.12) 
该 短 降 满 足 半 正 定 的 性 质 (020， 因 此 9- 路 Oo, RALO 
凸 函数 四。 对 于 四 优化 问题 ， 所 有 的 局 部 极 小 值 都 是 全 局 极 小 值 ， 因 此 
这 类 问题 一 般 认 为 是 比较 容易 求解 的 问题 。 


另 一 方面 ， 主 成 分 分 析 对 应 的 优化 问题 是 非 凸 优化 问题 。 令 X= 
Ben] 为 数据 中 心 化 后 构成 的 矩阵 ， 则 主 成 分 分 析 的 优化 问题 为 


min L(V) =| X-V"VX È. 
Wet, 
(7.13) 


SL th BE HE SCY DA UE TA AE lL H RR BON AE hE: 令 V 为 
优化 问题 的 全 局 极 小 值 ， 则 - V 也 是 该 问题 的 全 局 极 小 值 ， 且 有 


airen) o- 
= Br). 
(7.14) 
这 不 满足 凸 函数 的 定义 ， 因 此 主 成 分 分 析 的 优化 问题 为 非 凸 优化 问题 。 
一 般 来 说 ， 非 凸 优化 问题 被 认为 是 比较 难 求解 的 问题 ， 但 主 成 分 分 析 是 
一 个 特例 ， 我 们 可 以 借助 SVD 直 接 得 到 主 成 分 分 析 的 全 局 极 小 值 。 
“总 结 与 扩展 
除了 上 面 介 绍 的 例子 ， 其 他 凸 优化 问题 的 例子 包括 支持 向 量 机 、 线 


性 回归 等 线性 模型 ， 非 凸 优化 问题 的 例子 包括 低 秩 模型 《如 矩阵 分 
解 ) 、 深 度 神 经 网 络 模型 等 。 


03 经 典 优化 算法 


针对 不 同 的 优化 问题 和 应 用 场景 ， 研 究 者 们 提出 了 多 种 不 同 的 求解 
算法 ， 并 逐渐 发 展 出 了 有 严格 理论 支撑 的 研究 领域 一 凸 优化 。 在 这 众多 
的 算法 中 ， 有 几 种 经 典 的 优化 算法 是 值得 被 牢记 的 ， 了 解 它们 的 适用 场 
景 有 助 于 我 们 在 面 对 新 的 优化 问题 时 有 求解 思路 。 


知识 点 
微 积分 ， 线 性 代数 ， 凸 优化 
问题 无 约束 优化 问题 的 优化 方法 有 哪些 ? 


难度 : tekede see 


假设 有 一 道 无 约束 优化 问题 摆 在 你 面前 : 
min (0), 


其 中 目标 函数 L(-) 是 光滑 的 。 请 问 求解 该 问题 的 优化 算法 有 哪些 ? 它们 
的 适用 场景 是 什么 ? 
分 析 与 解答 


经 典 的 优化 算法 可 以 分 为 直接 法 和 和 迭代 法 两 大 类 。 





M, ULF AE OS EREA HAE ae AERA ia x 
DNRT, 但 它 不 是 万 能 的 。 直 接 法 要 求 目标 函数 
需要 满足 两 个 条 件 。 第 一 个 条 件 是 ，L(.) 是 凸 函 数 。 若 L() 是 凸 函 数 ， 那 
么 9 是 最 优 解 的 充分 必要 条 件 是 L() 在 6 处 的 梯度 为 0， 即 


VL(0)=0. 





(7.15) 


因此 ， 为 了 能 够 直接 求解 出 0"， 第 二 个 条 件 是 ， 上 式 有 闭 式 解 。 同 时 满 
足 这 两 个 条 件 的 经 典 例 子 是 岭 回 归 Ridge Regression) ， 其 目标 函数 为 


L(0)=|XO-y |; +4 |b - 
(7.16) 
稍 加 推导 就 能 得 到 最 优 解 为 〈 试 着 自己 推导 ) 
O =(X K+AD X'y. 
(7.17) 


直接 法 要 满足 的 这 两 个 条 件 限 制 了 它 的 应 用 范围 。 因 此 ， 在 很 多 实 
际 问题 中 ， 会 采用 迭代 法 。 和 迭代 法 就 是 迭代 地 修正 对 最 优 解 的 估计 。 假 


设 当前 对 最 优 解 的 估计 值 为 6， 和 希望 求解 优化 问题 
6, = arg min L(G, +5) 
3 s 





(7.18) 


pas sali Boar = 人 +6。 和 迭代 法 又 可 以 分 为 一 阶 法 和 二 阶 法 两 


一 阶 法 对 函数 LG, + 5) 做 一 阶 泰勒 展开 ， 得 到 近似 式 
L(0, +5) = LO) + VIO)S. 
(7.19) 


ta 于 该 近似 式 仅 在 5 较 小 时 才 比 较 准确 ， 因 此 在 求解 8 时 一 般 加 上 L2 正 则 
由 
a =uemin (LO)+ vey d+ L 1) 
=-avi(0). 
(7.20) 
由 此 ， 一 阶 法 的 选 代 公 式 表示 为 
8a =0,-aVL(0), 
(7.21) 
a E: 一 阶 法 也 称 梯度 下 降 法 ， 梯 度 就 是 目标 函数 的 一 阶 
阶 法 对 函数 L(8+) 做 二 阶 泰勒 展开 ， 得 到 近似 式 
10,48) LO + VA) 5+ S610), 
(7.22) 
其 中 尺 2L(9) 是 函数 在 ,处 的 Hessian 算 阵 。 通 过 求解 近似 优化 问题 
6= amaro vO) sava] 
=-V° LON’ VLO), 
(7.23) 
LLG Bl EAA 


8... = 0, -VLOY'VLO) 
(7.24) 


阶 法 也 称 为 牛顿 法 ，Hessian 矩 阵 就 是 目标 函数 的 二 阶 信 
法 的 收敛 速度 一 般 要 远 快 于 一 阶 法 ， 但 是 在 高 维 情况 下 ， Te me 
逆 的 计算 复杂 度 很 大 ， 而 且 当 目标 函数 非 凸 时 ， 二 阶 法 有 可 能 会 收敛 到 
鞍点 (Saddle Point) 。 


总结 与 扩展 


俄罗斯 著名 数学 家 Yurii Nesterov 于 1983 年 提出 了 一 阶 法 的 加 速算 法 
00]， 该 算法 的 收敛 速率 能 够 达到 一 阶 法 收敛 速率 的 理论 界 。 针 对 二 阶 
法 短 阵 求 逆 的 计算 复杂 度 过 高 的 问题 ，Charles George Broyden, Roger 
Fletcher，Donald Goldfarb 和 David Shanno 于 1970 年 独立 提出 了 后 来 被 称 
为 BFGS 的 算法 [1 一 和 ，1989 年 扩展 为 低 存 储 的 L-BFGS 算 法 (15), 





平方 根 倒数 速算 法 


20 世 纪 90 年 代 曾 出 现 过 一 款 不 可 思议 的 游戏 一 雷神 之 镍 Quake series) 。 除了 优 
AW TRAM Nm, NARA Bami T Eata. ditt 
配置 低下 的 年 代 ， 一 段 小 动画 都 是 一 个 奇迹 ， 但 雷神 之 犹 却 能 流畅 运行 于 各 种 配置 的 电 
脑 上 。 直到 2005 年 Quake Engine 开 源 时 ， 和 在 代码 库 
中 ， 人 们 发 现 了 许多 堪 称 神 来 之 笔 的 算法 。 它 们 以 极其 变态 的 高 着 计算 机 的 

tie Bate rant eonrclaDn Res, VEEE, MEI RED 
SUCHEN! 今天 的 主角 WEFAN RMN (Fast Inverse Square Root) 就 是 其 中 








1 


在 3D 绘图 中 , 计 einen DREMEN, BDV IL ROR 
解 一 个 矢量 的 方向 矢量 ， 即 


(ea tps! 





(7.28) 


SR LOFT RUBIN TEE, AUEREN. REE, TEL 
染 效 率 无 疑 会 得 到 极 大 提高 。 先 来 看 雷神 之 鱼 中 平方 根 倒数 速算 法 的 代码 。 
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RETEN VG SER 
， 似 笠 是 因为 和 性 能 所 三 相 比 ， 对 结果 的 二 次 选 代 意义 不 
结果 在 误差 允许 范围 内 卫 性 让 人 想到 了 牛顿 法 。 
牛顿 法 是 一 种 常用 的 求 方程 数值 解 的 方法 ， 具 体 如 下 ， 著 在 革 个 区 间 ! 中 ， 
En) 
F(a), 则 有 
进行 选 代 ， 可 以 党 成 对 解 的 任意 精度 的 数值 通 近 。 下 而 


+ ROE 








Pee = 
TE A, MEE 定义 数列 
lim zn + 20 用 








Mvg, ne O 





(7.26) 
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04 梯度 验证 


场景 描述 


在 用 梯度 下 降 法 求解 优化 问题 时 ， 最 重要 的 操作 就 是 计算 目标 函数 
的 梯度 。 对 于 一 些 比较 复杂 的 机 器 学 习 模型 ， 如 深度 神经 网 络 ， 目 标 函 
数 的 梯度 公式 也 非常 复杂 ， 很 容易 写 错 。 因 此 ， 在 实际 应 用 中 ， 写 出 计 
算 梯度 的 代码 之 后 ， 通 常 需要 验证 自己 写 的 代码 是 否 正确 。 





知识 点 
微 积分 ， 线 性 代数 


问题 ”如何 验证 求 目标 函数 梯度 功能 的 正确 性 ? 


难度 : deers 


给 定 优化 问题 并 9 人 ( 扑 ， 候 设 已 经 用 代码 实现 了 求 目标 函数 值 和 求 
目标 函数 梯度 的 功能 。 请 问 ， 如 何 利用 求 自 标 商 数 值 的 功能 来 验证 求 目 
标本 数 梯度 的 功能 是 天 正确 ? 


分 析 与 解答 


根据 梯度 的 定义 ， 目 标 函 数 的 梯度 为 


LO) soy 


L(O) = vty 
wu =| a 


(7.27) 
其 中 对 任意 的 三 1,2,…,n。 梯 度 的 第 个 元 素 的 定义 为 


ILO) _ gg LO+ he) LEO he) 
Bg, “二 th $ 


(7.28) 


其 中 ei 是 单位 向 量 ， 维 度 与 6 相同 ， 仅 在 第 i 个 位 置 取 值 为 1， 其 余 位 置 取 
值 为 0。 因 此 ， 可 以 取 /为 一 个 比较 小 的 数 〈 例 如 107) ， 则 有 


BL(0) _ L(0+ he,)~L(O—he,) 
00, 2h 


(7.29) 


式 (7.29) 的 左边 为 目标 函数 梯度 的 第 i 个 分 量 ， 右 边 仅 和 目标 函数 值 有 
关 ， 二 者 应 近似 相等 。 


下 面 利用 泰勒 展开 来 计算 该 近似 误差 。 令 单 变量 函数 
L(x) =L(0+xe). 

(7.30) 

根据 泰勒 展开 及 拉 格 朗 日 余 项 公式 ， 式 〈7.30) 可 写 为 

10+ he) =L LOE Oh LEO + FEO (py 
(7.31) 

其 中 piE(0,h)。 类 似 地 ， 

0-he) = LA) = LO -LON LO LLG 


(7.32) 


其 中 qiE(C-iu0)。 两 个 式 子 相 减 ， 等 号 两 边 同 时 除 以 2h， 并 由 于 








L@= ao 
(7.33) 
根据 式 〈7.31) 一 式 (7.33) 可 得 
L(O+he,)-L(O-he,) _ aL(0) RI 70, 2 
二 “Hi (p)+L 四 
(7.34) 


当 h 充 分 小 时 ，pi 和 qi 都 很 接近 0， 可 以 近似 认为 忆 项 前 面 的 系数 是 常 
数 M， 因 此 近似 式 的 误差 为 


[Hohe -7(0-he) LO). ym 
2h ôO, 
(7.35) 


由 此 可 知 ， 当 h 较 小 时 ，h 每 减 小 为 原来 的 10-1， 近 似 误差 约 减 小 为 原来 
的 102， 即 近似 误差 是 h 的 高 阶 无 穷 小 。 

在 实际 应 用 中 ， 我 们 随机 初始 化 9， 取 /为 较 小 的 数 〈 例 如 10 7) ， 
并 对 二 1,2,.…n， 依 次 验证 


Ll0+he)- 10-he) _aL(0)| — , 
2h ag | 





(7.36) 
是 否 成 立 。 如 果 对 于 某 个 下 标 i， 该 不 等 式 不 成 立 ， 则 有 以 下 两 种 可 
能 
Ëe 


CD 该 下 标 对 应 的 M 过 大 。 


(2) 该 梯度 分 量 计算 不 正确 。 


9， 减 小 h 为 原来 的 10-1， 并 再 次 计算 下 标 i 对 应 的 近似 
i i 差 约 减 小 为 原来 的 102， 则 对 应 于 第 一 种 可 能 ， 我 们 应 
该 采用 更 小 的 h 重 新 做 一 次 梯度 验证 ， 否 则 对 应 于 第 二 种 可 能 ， 我 们 应 
该 检查 求 梯度 的 代码 是 否 有 错误 。 





05 随机 梯度 下 降 法 


经 典 的 优化 方法 ， 如 梯度 下 降 法 ， 在 每 次 迭代 时 需要 使 用 所 有 的 训 
练 数据 ， 这 给 求解 大 规模 数据 的 优化 问题 带 来 了 挑战 。 如 何 克 服 这 个 挑 
战 ， 对 于 掌握 机 器 学 习 ， 尤 其 是 深度 学 习 至 关 重 要 。 


知识 点 
随机 梯度 下 降 法 ， 经 典 优化 算法 


问题 “ 当 训 练 数据 量 特别 大 时 ， 经 典 的 梯度 下 降 法 存在 
什么 问题 ， 需 要 做 如 何 改进 ? 


难度 : deve dese te 
分 析 与 解答 


在 机 器 学 习 中 ， 优 化 问题 的 目标 函数 通常 可 以 表示 成 
LO) -Bar HA(eg) 
(7.37) 
其 中 6 是 待 优化 的 模型 参数 ，x 是 模型 输入 ，1cxg) 是 模型 的 实际 输出 ，y 


是 模型 的 目标 输出 ， 函 数 L 刻 画 了 模型 在 数据 Gy) 上 的 损失 ，Pgaw 表 示 
数据 的 分 布 ，E 表 示 期 望 。 因 此 ，L(9) 刻 画 了 当 参 数 为 9 时 ， 模 型 在 所 有 


数据 上 的 平均 损失 。 我 们 希望 能 够 找到 平均 损失 最 小 的 模型 参数 ， 也 就 
是 求解 优化 问题 


6 = arg minL(0) 
(7.38) 


经 典 的 梯度 下 降 法 采用 所 有 训练 数据 的 平均 损失 来 近似 目标 函数 ， 
即 


LOTES) 


(7.39) 
WHO) = FSV D, 
(7.40) 
其 中 M 是 训练 样本 的 个 数 。 模 型 参数 的 更 新 公式 为 
0a =0, avL(0) 
(7.41) 


因此 ， 经 典 的 梯度 下 降 法 在 每 次 对 模型 参数 进行 更 新 时 ， 需 要 遍历 所 有 
的 训练 数据 。 当 M 很 大 时 ， 这 需要 很 大 的 计算 量 ， 耗 费 很 长 的 计算 时 
间 ， 在 实际 应 用 中 基本 不 可 行 。 


为 了 解决 该 问题 ， 随 机 梯度 下 降 法 (Stochastic Gradient Descent, 
SGD) 用 单个 训练 样本 的 损失 来 近似 平均 损失 ， 即 


LO;%;,9))=LF(%9)9;) 

(7.42) 
VLO; x, y,) = VLS (%,0),») 

(7.43) 


因此 ， 随 机 梯度 下 降 法 用 单个 训练 数据 即 可 对 模型 参数 进行 一 次 更 新 ， 
大 大 加 快 了 收敛 速率 。 该 方法 也 非常 适用 于 数据 源源 不 断 到 来 的 在 线 更 
新 场景 。 


为 了 降低 随机 梯度 的 方差 ， 从 而 使 得 迭代 算法 更 加 稳定 ， 也 为 了 充 
分 利用 高 度 优化 的 矩阵 运算 操作 ， 在 实际 应 用 中 我 们 会 同时 处 理 若干 训 
练 数据 ， 该 方法 被 称 为 小 批量 梯度 下 降 法 Mini-Batch Gradient 
Descent) . (Likiti SMA AH Paes (CIO II, 则 目 
标 函 数 及 其 梯度 为 





LO)= LHL Ob, , 
(74a) 
VO)= PL f0), ) 
(7.45) 
对 于 小 批量 梯度 下 降 法 的 使 用 ， 有 以 下 三 点 需要 注意 的 地 方 。 


(1) 如 何 选取 参数 m? 在 不 同 的 应 用 中 ， 最 优 的 m 通 常会 不 一 样 ， 
需要 通过 调 参 选取 。 一 般 m 取 2 的 寡 次 时 能 充分 利用 矩阵 运算 操作 ， 所 
以 可 以 在 2 的 寡 次 中 挑选 最 优 的 取 值 ， 例 如 32、64、128、256 等 。 


《2) 如 何 挑选 m 个 训练 数据 ?为 了 避免 数据 的 特定 顺序 给 算法 收 
敛 带 来 的 影响 ， 一 般 会 在 每 次 遍历 训练 数据 之 前 ， 先 对 所 有 的 数据 进行 
随机 排序 ， 然 后 在 每 次 迭代 时 按 顺序 挑选 m 个 训练 数据 直至 遍历 完 所 有 
的 数据 。 


(3) al be Za? 为 了 加 快 收敛 速率 ， 同 时 提高 求解 精 
i 采 速率 的 方案 : 一 开始 算法 采用 较 大 的 学 习 速 
率 ， AAEN EAMH, 减 小 学 习 速 率 做 更 精细 的 调整 。 最 优 的 
学 习 速 率 方案 也 通常 需要 调 参 才能 得 到 。 


综 上 ， 通 常 采 用 小 批量 梯度 下 降 法 解决 训练 数据 量 过 大 的 问题 。 每 
v 模型 参数 时 ， 只 需要 处 理 m 个 训练 数据 即 可 ， 其 中 中 是 一 个 远 小 
于 总 数据 量 M 的 常数 ， 这 样 能 够 大 大 加 快 训练 过 程 。 











LIT VTE 


但 凡 学 过 高 等 数学 的 人 ， 对 梯度 算 子 站 都 不 陌生 ， 但 是 这 个 符号 应 该 如 何 来 读 呢 ? 
也 符号 是 1837 年 爱尔兰 物理 学 家 和 数学 家 险 窗 尔 顿 (W.R， Hamilton， 建 立 险 密 尔 顿 
和 提出 四 元 数 的 大 牛 ) 首次 提出 的 ， 但 是 并 没有 说 明 台 符号 的 读音 - 


于 是 ， 到 了 1884 年 ， 当 物理 学 家 威廉 ,汤姆 森 (William Thomson， 热 力学 之 父 ) 想 
研究 一 下 黎 度 时 ， 苦 于 不 知 其 读音 。 当 时 ， 汤 旭 森 教授 正在 美国 的 约翰 .和 普 金 斯 大 学 
(Johns Hopkins University，JHU》 开 一 个 系列 讲座 ， 于 是 他 就 写 信 问 亚历山大 -格拉 汉 姆 - 
SUR (Alexander Graham Bell， 电 话 之 父 )。 


贝尔 回信 说 ， 早 些 年 ， 他 的 学 长 詹姆斯 -克拉克 -麦克 斯 书 James Clerk Maxwell, 
缔 千 电 磺 学 的 大 牛 ， 这 里 的 "学 长 "一 词 是 指 贝 尔 和 麦克 斯 书 都 曾 在 爱丁堡 大 学 受 教育 ) 曾 
经 告诉 贝尔 ， 他 为 只 发 明了 一 个 十 分 有 趣 的 发 音 ， 叫 作 " 纳 布 拉 ”(Nabla) 。Nabla 原 指 - 
种 希 伯 来 竖琴 ， 外 形 酷似 倒 三 角 。 具 体 事情 经 过 如 下 : 


1870 年 麦克 斯 击 的 儿 时 好 友 ， 物 理学 家 生得, 台 特 〔peter Guthrie Tait， 将 四 元 数 
发 挥 到 化 境 的 大 牛 》 正 在 研究 哈密 尔 顿 的 四 元 数 ， 其 中 有 很多 吕 符 号 。 于 是 麦克 斯 书写 
信 给 台 特 建议 说 ,亲爱 的 台 符 ， 如 果 腓 尼 基 的 王子 卡 德 订 斯 向 腓 尼 基 的 教授 们 问 这 个 符 
号 的 读 法 ， 那 么 他 们 肯定 会 说 这 个 符号 读 作 纳 布 拉 。*1871 年 麦克 斯 书写 信 问 台 特 ，*“ 你 
还 在 弹 那 个 纳 布 拉 琴 吗 ?“ 麦 克 斯 书 还 写 了 一 首 下 诗 献 给 台 特 ， 诗 的 题目 是 《至 纳 布 拉 琴 
FF) (To the Chief Musician upon Nabla) - 














06 ”随机 梯度 下 降 法 的 加 速 


场景 描述 


提 到 深度 学 习 中 的 优化 方法 ， 人 们 通常 会 想到 随机 梯度 下 降 法 
是 ， 随 机 梯度 下 降 法 并 不 是 万 金 油 ， 有 时 候 反 而 会 成 为 一 个 坑 
计 出 一 个 深度 神经 网 络 时 ， 如 果 只 知道 用 随机 梯度 下 降 法 来 训练 模型 ， 
那么 当 你 得 到 一 个 比较 差 的 训练 结果 时 ， 你 可 能 会 放弃 在 这 个 模型 上 继 
续 投入 精力 。 然 而 ， 造 成 训练 效果 差 的 真正 原因 ， 可 能 并 不 是 模型 的 问 
题 ， 而 是 随机 梯度 下 降 法 在 优化 过 程 中 失效 了 ， 这 可 能 会 导致 你 丧失 一 
次 新 发 现 的 机 会 。 






知识 点 
梯度 下 降 法 ， 随 机 梯度 下 降 法 


问题 1 随机 梯度 下 降 法 失效 的 原因 ”一 一 HERAF 
the 


难度 : krie 
深度 学 习 中 最 常用 的 优化 方法 是 随机 梯度 下 降 法 ， 但 是 随机 梯度 下 
降 法 偶尔 也 会 失效 ， 无 法 给 出 满意 的 训练 结果 ， 这 是 为 什么 ? 
分 析 与 解答 


为 了 回答 这 个 问题 ， 我 们 先 做 一 个 形象 的 比喻 。 想 象 一 下 ， 你 正在 
下 山 ， 视 力 很 好 ， 能 看 清 自己 所 处 位 置 的 坡度 ， 那 么 沿 着 坡 向 下 走 ， 最 


终 你 会 走 到 山 底 。 如 果 你 被 蒙 上 双眼 ， 只 能 赁 脚底 踩 石头 的 感觉 判断 当 
前 位 置 的 坡度 ， 精 确 性 就 大 大 下 降 ， 有 时 候 你 认为 的 坡 ， 实 际 上 可 能 并 
不 是 坡 ， 走 上 一 段 时 间 发 现 没有 下 山 ， 或 者 曲 曲折 折 走 了 好 多 弯路 才 下 
山 。 





类 似 地， 批量 梯度 下 降 法 (Batch Gradient Descent, BGD) 就 好 比 
ER TUN 而 随机 梯度 下 降 法 就 好 比 蒙 着 眼睛 下 山 。 具 体 介绍 一 下 两 种 
方法 。 

批量 梯度 下 降 法 在 全 部 训练 集 人 x, 上 计算 准确 的 梯度 ， 即 


YVelO:x.y,)+¥, 60) 


(7.46) 
其 中 f(@xpy 表 示 在 每 个 样本 (xy 的 损失 函数 ，9(9) 为 正则 项 。 
随机 梯度 下 降 法 则 采样 单个 样本 来 估计 的 当前 梯度 ， 即 
Vaf (0;x, 31) + VAO) 
(7.47) 


可 以 看 出 ， 为 了 获取 准确 的 梯度 ， 批 量 梯度 下 降 法 的 每 一 步 都 把 整 
个 训练 集 载 入 进来 进行 计算 ， 时 间 花 费 和 内 存 开销 都 非常 大 ， 无 法 应 用 
于 大 数据 集 、 大 模型 的 场景 。 相 反 ， 随 机 梯度 下 降 法 则 放弃 了 对 梯度 准 
确 性 的 追求 ， 每 步 仅仅 随机 采样 一 个 (或 少量 ) 样本 来 估计 当前 梯度 ， 
计算 速度 快 ， 内 存 开 销 小 。 但 由 于 每 步 接受 的 信息 量 有 限 ， 随 机 梯度 下 
降 法 对 梯度 的 估计 常常 出 现 偏差 ， 造 成 目标 函数 曲线 收敛 得 很 不 稳定 ， 
伴 有 剧烈 波动 ， 有 时 甚至 出 现 不 收敛 的 情况 。 图 7.4 展 示 了 两 种 方法 在 
优化 的 参数 轨迹 ， 可 以 看 出 ， 批 量 梯度 下 降 法 稳定 地 逼近 最 低 
点 ， 而 随机 梯度 下 降 法 的 参数 轨迹 曲 曲折 折 简 直 是 “黄河 十 八 弯 ”。 





ar 











图 7.4 参数 优化 轨迹 


学 习 中 的 优化 问题 本 身 就 很 难 ， 有 太 多 局 
错 ， 这 些 陷阱 对 随机 梯度 下 降 法 和 批量 梯度 下 降 法 
但 对 随机 梯度 下 降 法 来 说 ， 可 怕 的 不 是 局 部 最 
地 F BULGARI IL LSE, 2 两 
个 方向 上 两 头 普 ， 另 一 : ey 
che EPCRA TE 为 什么 随机 梯度 下 降 法 
TEREN? 在 山谷 中 ， 准 确 的 梯度 方向 是 沿 山道 向 下 ， 
稍 有 偏离 就 会 撞 向 山 壁 ， 而 粗糙 的 梯度 估计 使 得 它 在 两 山 壁 间 来 回 反弹 
震荡 ， 不 能 沿 山道 方向 迅速 下 降 ， 导 致 收敛 不 稳定 和 收敛 速度 
点 处 ， 随 机 梯度 下 降 法 会 走 入 一 片 平 坦 之 地 〈 此 时 离 最 低 点 
也 称 plateau) 。 想 象 一 下 蒙 着 双眼 只 凭借 脚 坡度 ， nature ent 
显 ， 那 么 基本 能 估计 出 度 不 明显 ， 则 很 可 能 走 
错 方向 。 同 样 ， 在 梯度 近 
出 梯度 的 微小 变化 ， 结 




























问题 2 解决 之 道 一 一 惯性 保持 和 环境 感知 。 


难度 : deekie 


为 了 改进 随机 梯度 下 降 法 ， 研 究 者 都 做 了 哪些 改动 ? 提出 了 哪些 变 
种 方法 ? 它们 各 有 哪些 特点 ? 


分 析 与 解答 





随机 梯度 下 降 法 本 质 上 是 采用 选 代 方式 更 新 参数 ， 每 次 迭代 i 
位 置 的 基础 上 ， 沿 着 某 一 方向 迈 一 小 步 抵达 下 一 位 置 ， 然 后 在 下 一 位 置 
重复 上 述 步骤 。 随 机 梯度 下 降 法 的 更 新 公式 表示 为 


A = 9-18, 
(7.48) 


其 中 ， 当 前 估计 的 负 梯 度 -gt 表示 步子 的 方向 ， 学 习 速 率 n 控 制 步 幅 。 改 
造 的 随机 梯度 下 降 法 仍然 基于 这 个 更 新 公式 。 


= 5) ff (Momentum) 方法 


为 了 解决 随机 梯度 下 降 法 山谷 震荡 和 鞍点 问题 ， 我 们 做 一 个 
简单 的 思维 实验 。 想 象 一 下 纸 团 在 山谷 和 鞍点 处 的 运动 轨迹 ， 在 山谷 中 
纸 团 受 重力 作用 沿 山 道 滚 下 ， 两 边 是 不 规则 的 山 壁 ， 纸 团 不 可 避免 地 挤 
在 山 壁 ， 由 于 质量 小 受 山 避 弹 力 的 干扰 大 ， 从 一 侧 山 壁 反 弹 回来 撞 向 另 
一 侧 山 辟 ， 结 果 来 回 震 荡 地 滚 下 ; 如 果 当 纸 团 来 到 鞍点 的 一 片 平坦 之 地 
时 ， 还 是 由 于 质量 小 ， 速 度 很 快 减 为 零 。 纸 团 的 情况 和 随机 梯度 下 降 法 
过 到 的 问题 简直 如 出 一 略 。 直 观 地 ， 如 果 换 成 一 个 铁 球 ， 当 沿 山谷 滚 下 
时 ， 不 容易 受到 途中 旁 力 的 干扰 ， 轨 迹 会 更 稳 更 直 ; 当 来 到 鞍点 中 心 
处 ， 在 惯性 作用 下 继续 前 行 ， 从 而 有 机 会 冲 出 这 片 平坦 的 陷阱 。 因 此 ， 
有 了 动量 方法 ， 模 型 参数 的 迭代 公式 为 


YEWA +N 


















(7.49) 
= 
(7.50) 


具体 来 说 ， 前 进步 伐 -w 由 两 部 分 组 成 。 一 是 学 习 速率 1 臀 以 当前 估计 的 
梯度 g,， 二 是 带 衰减 的 前 一 次 步伐 v_1。 这 里 ， 惯 性 就 体现 在 对 前 一 次 
步伐 信息 的 重 利用 上 。 类 比 中 学 物理 知识 ， È 
力 产生 的 加 速度 ， 前 一 次 步伐 好 比 前 一 时 刻 的 速度 
时 刻 的 速度 。 为 了 计算 当前 时 刻 的 速度 ， 应 当 考虑 家 
加 速度 共同 作用 的 结果 ， 因 此 w 直 接 依赖 于 w-; 和 ge， 而 不 仅仅 是 g'。 另 

















外 ， 误 减 系数 "扮演 了 阻力 的 作用 。 
iii 物理 还 告诉 我 们 ， 刻画 惯性 的 物理 量 是 动量 ， 这 也 是 算法 名 字 






1 消 ， 自 然 
HEIRS. 因此 ， i A 
快 ， 收 敛 曲 线 也 更 稳定 ， 如 图 7.5 所 示 。 


Geom (oot 
图 7.5 随机 梯度 下 降 法 中 的 动 姑 项 
AdaGrad 方 法 


惯性 的 获得 是 基于 历 
股子 向 前 冲 的 劲 儿 ， 
知 ， 即 使 蒙 上 双眼 ， 依 
息 ， 比 如 这 个 方向 总 是 坑 - 


随机 梯度 下 降 法 对 环境 的 感知 是 指 

一 些 经 验 性 判断 ， 自 适应 地 确定 参数 的 学 习 速率 ， 不 同 参数 的 更 新 步 幅 
是 不 同 的。 例如 ， 在 文本 处 理 中 训练 词 嵌入 模型 的 参数 时 ， 有 的 词 或 词 
组 频繁 出 现 ， 有 的 词 或 词组 则 极 少 出 现 。 数 据 的 稀疏 性 导致 相应 参数 的 
jit TAS ROTTEN ERNE T 

5 i 我 们 希望 更 新 频率 低 
参数 的 步 幅 可 以 减 
Te Roe Eo 


信息 的 ， aes ol Ae tN 3 









2 数 空 间 中 ， 根 据 不 同 参数 的 









(7.51) 


THO, PAR (CH) 时 刻 的 参数 向 量 9.,1 的 第 i 个 参数 ，gy 表 示 k 时 刻 的 
梯度 向 量 gy 的 第 i 个 维度 (方向 ) 。 另 外 ， 分 母 中 求 和 的 形式 实现 了 退火 
过 程 ， 这 是 很 多 优化 技术 中 常见 的 策略 ， 意味 着 随 着 时 间 推移 ， 学 习 速 


YZ ids +< 越 来 越 小 ， 从 而 保证 了 算法 的 最 终 收敛 。 
和 Adam 方 法 


Adam 方 法 将 惯性 保持 和 环境 感知 这 两 个 优 
Adam 记 录 梯 度 的 一 阶 矩 (first moment) ， 即 
均 ， 这 体现 了 惯性 保持 ， 另 一 方面 ，Adam 还 记录 梯度 的 二 阶 算 
(second moment) ， 即 过 往 梯度 平方 与 当前 梯度 平方 的 平均 ， 这 类 似 
AdaGrad 方 法 ， 体现 了 环境 感知 能 力 ， 为 不 同 Spier eevee 
% 思想 进行 融合 ， 即 
度 对 当前 平均 值 
的 贡献 呈 指 数 衰减 。 具 体 来 说 ， 和 | “EKA 数 衰退 平均 
exponential decay average) 技术 ， 计算 公式 为 


m, = Bim. +(1~ B85 















(7.52) 
v, = Bay... +(1-B,) 87, 
(7.53) 
FEHB, ByNTERMRBL mÈ ME, vie “Ni. 


‘tu fel A — EA RE? ME F Ele] PB 
度 g 是 随机 采样 得 到 的 估计 结果 ， 因 此 更 关注 它 在 统计 意义 上 的 期 望 ; 
二 阶 矩 相当 于 估计 下 8?]， 这 点 与 AdaGrad 方 法 不 同 ， 不 是 g? 从 开始 到 现 
在 的 加 和 ， 而 是 它 的 期 望 。 它 们 的 物理 意义 是 ， 当 |lmdl 大 且 w 大 时 ， 梯 
度 大 且 稳定 ， 这 表明 遇 到 一 个 明显 的 大 坡 ， 前 进 方向 明确 ; 当 |lmjll 趋 于 
零 且 w 大 时 ， 梯 度 不 稳定 ， 表 明 可 能 遇 到 一 个 峡谷 ， 容 易 引起 反弹 震 
Gs 当 |lml 大 且 v 趋 于 零 时 ， 这 种 情况 不 可 能 出 现 ; lm TE Ev 


于 零 时 ， 梯 度 趋 于 零 ， 可 能 到 达 局 部 最 低 点 ， 也 可 能 走 到 一 片 坡度 极 缓 








的 平地 ， 此 时 要 避免 陷入 平原 (plateau) 。 另 外 ，Adam 方 法 还 考虑 了 
mp Vi 在 零 初始 值 情况 下 的 偏 置 矫正 。 具 体 来 说 ，Adam 的 更 新 公式 为 


(7.54) 





法 除了 上 述 三 种 随机 梯度 下 降 法 变种 ， 研 究 者 还 提出 了 以 下 几 种 方 
法 。 


(1) Nesterov Accelerated Gradient。 该 方法 扩展 了 动量 方法 ， 顺 着 
惯性 方向 ， 计 算 未 来 可 能 位 置 处 的 梯度 而 非 当 前 位 置 的 梯度 ， 这 个 “ 提 
前 量 "的 设计 让 算法 有 了 对 前 方 环境 预 判 的 能 力 。 


(2) AdaDelta 和 RMSProp。 这 两 个 方法 非常 类 似 ， 是 对 AdaGrad 方 
法 的 改进 。AdaGrad 方 法 采用 所 有 历史 梯度 平方 和 的 平方 根 做 分 母 ， 分 
母 随时 间 单 调 递增 ， 产 生 的 自 适 应 学 习 速 率 随 时 间 衰减 的 速度 过 于 激 
进 。 针 对 这 个 问题 ，AdaDelta 和 RMSProp 采 用 指数 衰退 平均 的 计算 方 
法 ， 用 过 往 梯度 的 均值 代 普 它们 的 求 和 。 


(3) AdaMax。 该 方法 是 基于 Adam 方 法 的 一 个 变种 方法 ， 对 梯度 
平方 的 处 理由 指数 衰退 平均 改 为 指数 衰退 求 最 大 值 。 


(4) Nadam。 该 方法 可 看 成 Nesterov Accelerated 。 Gradient 版 的 
Adam。 
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“LUERE SPRE” — SEE TK TEENE RI AEA AT BE 

这 道 题 能 够 从 细节 入 手 ， 考 察 面试 者 对 于 机 器 学 习 模型 各 个 相关 环节 的 
了 解 程度 。 很 多 面试 者 能 给 出 一 些 大 概 的 理解 ， 但 是 要 想 深入 且 清晰 的 
解答 这 道 题 也 并 非 易 事 。 下 面 我 们 尝试 从 不 同 角度 给 出 该 问题 的 解答 。 


在 正式 开始 之 前 ， 我 们 对 问题 做 进一步 的 解释 。 有 一 些 初学 者 可 能 
会 对 问题 本 身 存在 疑问 一 一 为 什么 希望 模型 参数 具有 稀疏 性 呢 ? 稀疏 
性 说 白 了 就 是 模型 的 很 多 参数 是 0。 这 相当 于 对 模型 进行 了 一 次 特征 

t 只 留 下 些 比较 重要 的 特征 ， 提 高 模型 的 泛 化 能 力 ， 降低 过 拟 合 
































ae 万 维 
ee sees 
a, ott DUEN RAPIH”. it TR Att 
问 这 个 问题 后 ， 下 面 进入 正题 ， 寻 找 L1 正 则 化 产生 稀疏 解 的 原因 。 






知识 点 
微 积分 ， 线 性 代数 


问题 LI 正则 化 使 得 模型 参数 具有 稀 朴 性 的 原理 是 什 
么 ? 


难度 : deedee 


分 析 与 解答 


角度 1， 解 空间 形状 


机 器 学 习 的 经 典 之 作 给 出 的 解释 无 疑 是 权威 且 直 观 的 06， 面 试 者 
给 出 的 答案 多 数 也 是 从 这 个 角度 出 发 的 。 在 二 维 的 情况 下 ， 黄 色 的 部 分 
是 L2 和 L1 正 则 项 约束 后 的 解 空间 ， 绿 色 的 等 高 线 是 凸 优化 问题 中 目标 
函数 的 等 高 线 ， 如 图 7.6 所 示 。 由 图 可 知 ，L2 正 则 项 约束 后 的 解 空间 是 
圆 形 ， 而 L1 正 则 项 约束 的 解 空间 是 多 边 形 。 显 然 ， 多 边 形 的 解 空间 更 容 
易 在 尖 角 处 与 等 高 线 碰撞 出 稀疏 解 。 








(a) L2 正则 化 对 应 的 解 宝 间 (b) L1 正则 化 对 应 的 解 裤 间 


图 7.6 2 正 则 化 约束 与 L1 正 则 化 约束 


上 述 这 个 解释 无 疑 是 正确 的 ， 但 却 不 够 精确 ， 面 试 者 往往 回答 过 于 

统 ， 视 了 几 个 关键 问题 。 比 如 ， 为 什么 加 入 正则 项 就 是 定义 

一 个 解 空 E? 为 什么 L1 和 L2 的 解 空间 是 不 同 的 ? 面试 官 如 果 深 

ae 很 多 难以 给 出 满意 的 答案 。 其 实 可 以 通过 KKT 条 件 给 出 
一 种 解释 。 


事实 上 ,“ 带 正则 项 "和 
取 值 空间 从 而 防止 过 拟 合 ， 
的 L2 范 数 的 平方 不 能 大 于 m: 
















约束 条 件 " 是 等 价 的 。 为 了 约束 w 的 可 能 
站 为 该 最 优化 问题 加 上 一 个 约束 ， 就 是 w 


mino, WA, 
st. wbBSm. 
(7.55) 
为 了 求解 带 约束 条 件 的 凸 优化 问题 ， 写 出 拉 格 朗 日 函数 
x 
XO, -w x) + A w ls ~m). 
a 
(7.56) 
Few HUD DEA A LR, AKT AR, ENI 


满足 


(de, -waw È m) 





(7.57) 


仔细 一 看 ， 第 一 个 式 子 不 就 是 w* 为 带 L2 正 则 项 的 优化 问题 的 最 优 解 的 
条 件 上 嘛 ， 而 和 就 是 L2 正 则 项 前 面 的 正则 参数 。 


这 时 回头 再 看 开头 的 问题 就 清晰 了 。L2 正 则 化 相当 于 为 参数 定义 了 
一 个 圆 形 的 解 空 间 〔 因 为 必须 保证 L2 范 数 不 能 大 于 m) ， 而 LI 正则 化 相 
当 于 为 参数 定义 了 一 个 棱 形 的 解 空间 。 如 果 原 问题 目标 函数 的 最 优 解 不 
是 恰好 落 在 解 空间 内 ， 那 么 约束 条 件 下 的 最 优 解 一 定 是 在 解 空间 的 边界 
上 ， 而 L1“ 楼 角 分 明 ” 的 解 空间 显然 更 容易 与 目标 函数 等 高 线 在 角 点 磁 
撞 ， 从 而 产生 稀疏 解 。 


mfi: MRM 
第 二 个 角度 试图 用 更 直观 的 图 示 来 解释 L1 产 生 稀 玻 性 这 一 Ra Bh 


SERN, SAARI, WAT Aim. MRE 
目标 函数 L(w) 的 曲线 图 ， 显 然 最 小 值 点 在 蓝 点 处 ， 且 对 应 的 w" 值 非 0。 











poeme 
MORAR 





feu ERE 
MORAR 










minfa 


图 7.7 ARAR 


首先 ， 考 虑 加 上 L2 正 则 化 项 ， 目 标 函 数 变 成 L(w)+Cw?， 其 函数 曲 
人 神族 色 。 此 时 ， 最 小 值 点 在 黄 点 处 ， 对 应 的 w* 的 绝对 值 减 小 了 ， 但 仍 
RAO. 


然后 ， 考 虑 加 上 LI1 正 则 化 项 ， 目 标 函 数 变 成 C(w)+Clwl|， 其 函数 曲 
线 为 绿色 。 此 时 ， 最 小 值 点 在 红 点 处 ， 对 应 的 w 是 0， 产 生 了 稀疏 性 。 


产生 上 述 现象 的 原因 也 很 直观 。 加 入 L1 正 则 项 后 ， ue 
标 函 数 求 导 ， 正 则 项 部 分 产生 在 原 

边 部 分 是 C， 因 此 ， 只 要 原 目标 函数 的 叶 

项 的 目标 函数 在 原点 左边 部 分 始终 是 递减 的 ， 在 原点 










增 的 ， 最 小 值 点 原点 处 。 相 反 ，L2 正 则 项 在 | 
只 要 原 目标 函数 在 原点 处 的 导数 不 为 0%， 那么 最 小 值 会 在 原点 ， 


所 以 L2 只 有 减 小 w 绝 对 值 的 作用 ， 对 解 空间 的 稀疏 性 没有 贡献 。 


在 一 些 在 线 梯度 下 降 算法 中 ， 往 往 会 采用 截断 梯度 法 来 产生 稀疏 
性 ， 这 同 L1 正 则 项 产生 稀疏 性 的 原理 是 类 似 的 。 


m fE: 贝 叶 斯 先 验 


从 贝 叶 斯 的 角度 来 理解 L1 正 则 化 和 L2 正 则 化 ， 简 单 的 解释 是 ，L1 
正则 化 相当 于 对 模型 参数 w 引 入 了 拉 普 拉 斯 先 验 ，L2 正 则 化 相当 于 引入 


了 高 斯 先 验 ， 而 拉 普 拉 斯 先 验 使 参数 为 0 的 可 能 性 更 大 。 








图 7.8 是 高新 分 布 由 绕 图 由 图 可 见 , PENATEN Con) Ab 
是 平滑 的 ， 也 四 




















图 7.8 高 斯 分 布 曲线 图 


相反 ， et 拉 斯 分 布 曲线 图 。 由 图 可 见 ， 拉 普 拉 斯 分 布 在 
极 值 点 一 个 尖峰 ， 所 以 拉 普 拉 斯 先 验 分 布 中 参数 w 取 值 为 0 
的 可 能 性 ae 在 此 我 们 不 再 给 出 L1 和 2 正则 化 分 别 对 应 拉 普 拉 其 
先 验 分 布 和 高 斯 先 验 分 布 的 详细 证 明 。 
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第 8 章 ”采样 











一 叶 ， 尝 易 一 次"， 其 中 就 草 含 着 采 
Ñ 定 的 概率 分 布 中 抽取 相应 样本 点 的 过 程 。 
重要 的 应 用 : 它 可 以 将 复杂 的 分 布 简化 为 
样本 重 采 样 对 样本 集 进行 调整 以 更 好 地 适应 后 期 的 模 
习 ; 可 以 用 于 随机 模拟 以 进行 复杂 模型 的 近似 求解 或 推理 。 另 外 ， 采 样 
e e Taek ade 可 以 帮助 人 们 快速 、 直 观 地 了 解数 据 
的 结构 和 特性 。 


对 于 一 些 简单 的 分 布 布 、 高 斯 分 布 等 ， 很 多 编 





语言 里 










面 都 有 直接 的 采样 函数 。 ehy eri 
， a rte 较 复杂 往往 并 没有 
er 样 函数 可 供 调用 ， 人 Hike Al 





此 ， 对 采样 方法 
本 章 会 i 

的 作用 、 常 见 的 采样 方 

采样 的 应 用 。 





深入 理解 是 很 有 必要 的 。 


问题 与 解答 来 展现 采样 的 相关 知识 ， 包 括 采 样 
法 、 采 样 在 一 些 分 布 或 模型 上 的 具体 实现 ， 以 及 








01 采样 的 作用 


场景 描述 


采样 是 从 特定 的 概率 分 布 中 抽取 对 应 的 样本 点 。 那 么 ， 这 些 抽取 出 
AAD EET ARIRE RE SRR ROAR 
么 问题 ? 


知识 点 
采样 ， 机 器 学 习 ， 概 率 统计 


问题 举例 说 明 采 样 在 机 器 学 习 中 的 应 用 。 


难度 : arcade 


分 析 与 解答 


和 根据 给 定 的 概率 分 布 , empe 
f i 3 ç 





这 个 
FSU MOE GSR EMAL 


另 一 方面 ， 采 样 得 到 的 样本 集 也 可 以 看 作 是 一 种 非 参数 模型 ， 即 用 
较 少量 的 样本 点 〈 经 验 分 布 ) 似 总 体 分 布 ， 并 刻画 总 体 分 布 中 的 不 
确定 性 。 从 这 个 角度 来 说 ， 采 样 息 降 维 ， 可 以 起 到 简化 
问题 的 作用 。 例 如 ， 在 训练 机 器 学 习 模型 时 ， 一 般 想 要 优化 的 是 模型 在 








总 体 分 布 上 的 期 望 损失 (期 望 风险 ，， 但 总 体 分 布 可 能 包含 无 穷 多 个 样 
ef acters 用 上 几乎 是 不 可 能 的 ， 采 集 和 存储 样本 的 代价 也 
大 。 因 此 ， 用 总 体 分 布 的 一 个 样本 集 来 作为 总 体 分 布 的 近 
bt 称 之 为 训练 集 ， 训 练 模型 的 时 候 是 最 小 化 模型 在 训练 集 上 损失 函数 
《经 验 风险 ) 。 同 理 ， 估 模 型 时 ， 也 是 看 模型 在 另外 一 个 样本 集 
(测试 集 ) 上 的 效果 。 这 种 信息 降 维 的 特性 ， 使 得 采样 在 数据 可 视 化 方 
ee 它 可 以 帮助 人 们 快速 、 直 观 地 了 解 总 体 分 布 中 数据 的 
结构 和 


对 当前 的 数据 集 进 行 重 采样 ， 可 以 充分 利用 已 有 数据 集 ， 挖 所 更 多 
信息 ， 如 自助 法 和 刀 切 法 (Jack knife) ， 通 过 对 样本 多 次 重 采样 来 估计 
量 方差 等 。 另 外 ， 利 用 重 采样 技术 ， 可 以 在 保持 特定 
RER) ， 有 意识 地 改变 样本 的 分 布 ， 以 更 适应 后 
， 例 如 利用 重 采样 来 处 理 分 类 模型 的 训练 样本 不 均衡 问 


























此 外 ， 很 多 模型 由 于 结构 复杂 、 含 有 
解 公式 比较 复杂 ， 没 有 显 式 解 析 解 ， 难 以 进 3 
情况 下 ， 可 以 利用 采样 方法 进行 随机 模拟 ， 从 而 对 这 : k 行 近 
似 求解 或 推理 。 这 一 | Win EEA ALEEA i FIUS 
或 者 是 求 某 些 随机 变量 或 参数 在 给 定数 据 下 的 后 验 分 布 等 。 例 如 ， 在 隐 
狄 利克 雷 模 型 和 深度 玻 尔 兹 曼 机 (Deep Boltzmann Machines, DBM) 的 
求解 过 程 中 ， 由 于 含有 隐 变 量 ， 直 接 计算 比较 困难 ， 此 时 可 以 用 吉 布 斯 
采样 对 隐 变 量 的 分 布 进 行 采样 。 如 果 对 于 > ayy 变量 
和 参数 变量 放 在 一 起 ， 对 它们 的 联合 分 布 : 样 。 a 
确定 性 的 近似 求解 方法 〈 如 变 分 贝 叶 斯 方法 、 ERD ， 
的 随机 模拟 方法 是 数值 型 的 近似 求解 方法 。 


总结 与 扩展 


采样 在 机 器 学 习 中 还 有 很 多 其 他 应 用 ， 在 实际 面试 中 ， 面 试 官 可 能 
会 让 面试 者 大 致 说 一 下 几 种 常见 的 应 用 ， 然 后 挑 一 个 面试 者 比较 熟悉 的 
应 用 具体 交谈 。 例 如 ， 如 何 用 自助 法 或 刀 切 法 来 估计 偏差 、 方 差 等 ; 隐 
狄 利克 雷 模型 和 深度 玻 尔 兹 曼 机 具体 是 怎么 用 吉 布 斯 采样 进行 求解 的 ? 
在 进行 模型 求解 时 ， 马 尔 可 夫 蒙 特 卡 洛 采 样 法 与 常见 的 最 大 期 望 算法 、 
变 分 推断 方法 有 什么 联系 和 区 别 ? 














02 均匀 分 布 随机 数 


均匀 分 布 是 指 整个 样本 空间 中 的 每 一 个 样本 点 对 应 的 概率 ee 
都 是 相等 的 。 根 据 样本 空间 是 否 连续 ， 又 分 为 离散 Folia 均匀 
分 布 。 均 匀 分 布 可 以 算 作 是 最 简单 的 概率 分 布 。 从 均 采 
Aa 即 生成 均匀 分 布 随机 数 ， 几 乎 是 所 有 采样 算法 : 要 用 到 的 基本 井 
即使 是 如 此 简单 的 分 布 ， 其 采样 过 程 也 并 不 是 显然 的 ， 需 要 

Bol En HE 











知识 点 
概率 统计 ， 线 性 同 余 


问题 “如 何 编程 实现 均匀 分 布 随机 数 生成 器 ? 


HERE: deeree 
分 析 与 解答 


首先 需要 明确 的 是 ， 计 算 机 程序 都 是 确定 性 的 ， 因 此 并 不 能 产生 真 

a T a eee 只 能 产生 伪 随 机 数 〔 伪 随机 数 是 指 这 
过 确定 性 的 程序 产生 的 ， 但 是 它们 人 
测试) 状态 值 ， 因 
pe wma 只 能 通过 离散 分 布 来 通过 续 分 布 
《用 很 大 的 离散 空间 来 提供 足够 的 精度 ) 。 








一 般 可 采用 线性 同 余 法 (Linear Congruential Generator) 来 生成 离 
散 均匀 分 布 伪 随 机 数 ， 计 算 公式 为 


Xa Sa x, +e (mod m), 
(8.1) 


也 就 是 根据 当前 生成 的 随机 数 x 来 进行 适当 变换 ， 进 而 产生 下 一 次 的 随 
机 数 xl。 初始 值 x 称 为 随机 种 子 。 式 (8.1) 得 到 的 是 区 间 [0,m-1J 上 的 
随机 整数 ， 如 果 想 要 得 到 区 间 [0,.1]] 上 的 连续 均匀 分 布 随机 数 ， 用 x 除 以 
m 即 可 。 


可 以 看 出 ， 线 性 同 余 法 得 到 的 随机 数 并 不 是 相互 独立 的 (下 一 次 的 
随机 数 根据 当前 随机 数 来 产生 ) 。 此 外 ， 根 据 式 〈8.1) ， 该 算法 最 多 
只 能 产生 m 个 不 同 的 随机 数 ， 实 际 上 对 于 特定 的 种 子 ， 很 多 数 无 法 取 
到 ， 循 环 周期 基本 达 不 到 m。 如 果 进行 多 次 操作 ， 得 到 的 随机 数 序 列 会 
进入 循环 周期 。 因 此 ， 一 个 好 的 线性 同 余 随 机 数 生成 器 ， 要 让 其 循环 周 
期 尽 可 能 接近 m， 这 就 需要 精心 选择 合适 的 乘法 因子 o 和 模 数 m (需要 利 
用 代数 和 群 理论 ) 。 具 体 实现 中 有 多 种 不 同 的 版 本 ， 例 如 gcc 中 采用 的 
glibc 版 本 : 








但 不 管 怎样 ， 由 计算 机 程序 实现 的 随机 数 生成 器 产生 的 都 是 伪 随 机 
数 ， 真 正 的 随机 数 只 会 存在 于 自然 界 的 物理 现象 中 ， 比 如 放射 性 物质 的 
衰变 ， 温 度 、 气 流 的 随机 扰动 等 。 有 一 些 网 站 可 以 提供 基于 大 自然 的 随 
机 现象 的 随机 生成 器 ， 有 兴趣 的 读者 可 以 尝试 大 
噪声 来 产生 随机 数 ， 可 以 说 是 “货真价实 "的 真 随机 数 生成 器 了 。 








图 8.1 内 电 产 生 大 








结 与 扩展 


面试 时 ， 面 试 官 还 可 能 会 针对 线性 同 余 法 进 和 
汗 机 种 子 一 般 如 何 选 定 ? 如 果 需 要 7 
在 什么 问题 ? 如 何 证 明 上 述 
鸭 匀 分 布 〈 伪 随机 数 ) ? 





比如 ， 线 







#, £ 
序列 可 以 


03 常见 的 采样 方法 


场景 描述 


对 于 一 个 随机 变量 ， EE EER care bap EN ail 
特性 。 有 具体 来 说 ， 给 定 随机 变量 的 一 个 取 值 ， 可 以 根据 数 来 
计算 该 值 对 应 的 概率 〈 密 度 ) 。 反 过 来 ， 也 可 以 根据 概 EAIA 
的 概率 分 布 信 来 生成 了 机 变量 的 一 个 取 值 ， 这 就 是 采样 。 因 此 ， 从 某 

概率 密度 函数 的 逆向 应 用 。 与 根据 概率 密度 函数 
计算 样本 点 对 应 的 概率 值 不 ， 采 样 过 程 往往 没有 那么 直接 ， 通 常 需要 
根据 竺 采样 分 布 的 具体 特点 来 选择 合适 的 采样 策略 









知识 点 
逆 变 换 采 样 ， 拒 绝 采样 ， 重 要 性 采样 
问题 “ 抛 开 那 些 针对 特定 分 布 而 精心 设计 的 采样 方法 ， 


说 一 些 你 所 知道 的 通用 采样 方法 或 采样 策略 ， 简 单 描述 
它们 的 主要 思想 以 及 具体 操作 步骤。 





难度 克 克 六 六 
分 析 与 解答 


几乎 所 有 的 采样 方法 都 是 以 均匀 分 布 随机 数 作为 基本 操作 。 均 匀 分 
a ALAR, hb RSP, ik NPE 


首先 假设 已 经 可 以 生成 [0,1] 上 的 均匀 分 布 随 机 数 。 对 于 一 些 简单 的 
分 布 ， 可 以 直接 用 均匀 采样 的 sd pa 比如 有 限 离 
散 分 布 可 以 用 轮 盘 财 算 法 来 采样 。 很 多 分 布 一 般 不 好 直接 进行 采 
样 ， 可 以 考虑 函数 变换 法 。 一 般 地 ， “ORBEA hu ENO 
= 9(X)， 则 它们 的 概率 密度 函数 有 如 下 关系 : 


PPE - 








(8.2) 


因此 ， 如 果 从 目标 分 布 pw) 中 不 好 采样 x， 可 以 构造 一 个 变换 

得 从 变换 后 的 分 布 p(u) 中 采样 u 比 较 容易 ， 这 样 可 以 通过 先 
对 u 进 行 采样 然后 通过 反 函数 x*=w (wD 来 间接 得 到 x。 如 果 是 高 维 空间 的 
随机 向 量 ， 则 WO: (9 对 应 Jacobian 行 列 式 。 


特别 地 ， 在 函数 变换 法 中 ， 如 果 变 换 关 系 g(.) 是 x 的 累积 分 布 函数 的 
话 ， 则 得 到 所 谓 的 逆 变 换 采样 Inverse Transform Sampling) 。 假 设 竺 
采样 的 目标 分 布 的 概率 密度 函数 为 po)， 它 的 累积 分 布 函数 为 





u=0(x)=[" pdr, 


(8.3) 






Saw ae OR Rede BOLE TRAE: 
(1) 从 均匀 分 布 U(0.1) 产 生 一 个 随机 数 ui; 
(2) 计算 5 = OM), EPO (*) 是 累积 分 布 函数 的 道 函 数 。 


根据 式 〈8.2) 和 式 (8.3) ， 上 述 采 样 过 程 得 到 的 x 服从 p(x) 分 布 。 图 8.2 
是 逆 变 换 采 样 法 的 示意 图 。 





图 82 逆 变 换 采样 示意 图 


如 果 待 采样 的 目标 分 布 的 累积 分 布 函 数 的 逆 函 数 无 法 求解 或 者 
Sit Se, WA Pes aay 此 时 可 以 构造 一 个 容 的 参考 
分 布 ， 先 对 参考 分 布 然后 对 得 到 的 样本 进行 一 定 的 后 处 理 操 
作 ， ARA ARAU RAM. 常见 的 拒绝 采样 (Rejection 
Sampling) 、 重 要 性 Cn Sampling) ， 就 属于 这 类 采样 算 
法 ， 下 面 分 别 简单 绍 它们 的 采样 过 程 。 


拒绝 采样 ， 又 叫 接受 / 拒 : jai (Accept-Reject Sampling) 。 对 于 目 
标 分 布 p(x)， 选 取 一 个 容易 采样 的 参考 分 布 q(x)， 使 得 对 于 任意 x 都 有 
PO) SM eats, 则 可 以 按 如 下 过 程 进行 采样 

(1) 从 参考 分 布 q(x) 中 随机 抽取 一 个 样本 xi。 

(2) 从 均匀 分 布 U(0,1) 产 生 一 个 随机 数 ui。 


<20) 
(3) 如 果 ” Max), 则 接受 样本 x ”; 否则 拒绝 ， 重 新 进行 步骤 
(1) 一 (3) ， 直 到 新 产生 的 样本 xi 被 接受 。 


通过 简单 的 推导 ， 可 以 知道 最 终 得 到 的 x 服从 目标 分 布 p(x)。 如 图 




















83 (a) 所 示 ， 拒绝 采样 的 关键 是 为 目标 分 布 p0O 选 取 一 个 合适 的 包 络 

PR RLM q(x): 包 络 函数 越 紧 ， 每 次 采样 时 样本 被 接受 的 概率 越 大 ， 采 样 
效率 越 高 。 在 实际 应 用 中 ， 为 了 维持 采样 效率 ， 有 时 很 难 寻找 一 个 解析 
形式 的 q(x)， 因 此 延伸 出 了 自 适应 拒绝 采样 Adaptive Rejection 
Sampling) ， 在 目标 分 布 是 对 数目 函数 | z 
SARR pO)» 如 图 8.3 (b) 所 示 ， 这 
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图 83 拒绝 采样 示意 图 


很 多 时 候 ， 采 样 的 最 终 目 的 并 不 是 为 了 得 到 样本 ， 而 是 为 了 进行 一 
续 任务 ， 如 预测 变量 取 值 ， 这 通常 表现 为 一 个 求 函 数 期 望 的 形式 。 
算 函 数 flx) 在 目标 分 布 p(x) 上 的 积分 函数 其 








BL]= pO, 


(8.4) 
w= 
首先 ， 找 一 个 比较 容易 抽样 的 参考 分 布 q(x)， 并 令 ax), WAT 
1= [feoweog nar, 
(8.5) 


这 里 w(x) 可 以 看 成 是 样本 x 的 重要 性 权重 。 由 此 ， 可 以 先 从 参考 分 布 q(x) 
中 抽取 N 个 样本 {xi}， 然 后 利用 如 下 公式 来 估计 E[ 月 : 


AL Sedu. 


(8.6) 


图 8.4 是 重要 性 采样 的 示意 图 。 如 果 不 需要 计算 函数 积分 ， 只 想 从 目标 
分 布 p(x) 中 采样 出 若干 样本 ， 则 可 以 用 重要 性 重 采样 (Sampling- 
Importance Re-sampling, SIR) ， 先 在 从 参考 分 布 q(x) 中 抽取 N 个 样本 {x; 
}， 然 后 按照 它们 对 应 的 重要 性 权重 {w(xj)} 对 这 些 样本 进行 重新 采样 
《这 是 一 个 简单 的 针对 有 限 离散 分 布 的 采样 ) ， 最 终 得 到 的 样本 服从 目 
标 分 布 p(x)。 











图 8.4 重要 性 采样 示意 图 
示 应 用 中 ， 如 果 是 高 维 空间 的 随机 向 量 ， PEETER 
低下 


A eh ie 接受 概率 小 
重 低 以 E -常见 的 有 










"总 结 与 扩展 
上 述 解答 中 我 们 只 是 列举 了 几 个 最 常用 的 采样 算法 ， 简 单 介 绍 了 它 





们 的 具体 操作 。 在 实际 面试 时 ， 面 试 官 可 能 会 让 面试 者 选择 其 最 熟悉 的 

某 个 采样 算法 来 回答 ， 然 后 较 深入 地 问 一 下 该 算法 的 理论 证 明 、 优 缺 

点 、 相 关 扩 展 和 应 用 等 。 例 如 ， 为 何 拒绝 采样 或 重要 性 采样 在 高 维 空间 
会 效率 低下 而 无 法 使 用 ? 如 何 从 一 个 不 规则 多 边 形 中 随机 取 一 个 点 ? 


04 ”高 斯 分 布 的 采样 


高 斯 分 布 ， 又 称 正 态 分 布 ， 
重要 的 概率 分 布 teem 
aba be he 







RE TK 不 同 
具体 操作 以 及 性 能 对 比 ， 我 们 会 对 这 些 采 样 方法 有 更 直观 的 印象 。 
知识 点 
高 斯 分 布 ，Box-Muller 算 法 ， 拒 绝 采 样 


问题 “如 何 对 高 斯 分 布 进行 采样 ? 


WEE: ake deste ste 
分 析 与 解答 


首先 ， 假 设 随 机 变量 z 服 从 标准 正 态 分 布 N(0,1)， 令 
2th 
(8.7) 
则 x 服从 均值 为 y、 方 差 为 的 高 斯 分 布 N(p,o?)。 因 此 ， 任 意 高 斯 分 布 都 






Sb ASL BLA ALP ASS BA, FIRS EB HE TERS 
采样 方法 有 逆 变 换 法 、 拒 绝 采样 、 重 要 性 采样 、 马 尔 
法 等 。 具 体 到 高 斯 分 布 ， 要 如 何 采 样 呢 ? 


如 果 直 接 用 逆 变 换 法 ， 基 本 操作 步骤 为 : 
(1) 产生 [0,1] 上 的 均匀 分 布 随机 数 u。 
(2) 令 :=Vzerf"(2w-D， 则 z 服 从 标准 正 态 分 布 。 其 中 erf.》 是 高 


斯 误差 函数 ， 它 是 标准 正 态 分 布 的 累积 分 布 函 数 经 过 简单 平移 和 拉 伸 变 
换 后 的 形式 ， 定 义 如 下 





C88) 
上 述 首 变换 法 需要 求解 erflx) 的 逆 函 数 ， 这 并 不 是 一 个 初等 函数 ， 
没有 显 式 解 ， 计 算 起 来 比较 麻烦 ， 所 以 为 了 避免 这 种 非 初等 函数 的 求 道 
操作 ，Box-Muller 算 法 提出 了 如 下 解决 方案 ， 既 然 单个 高 斯 分 布 的 累计 
分 函数 不 好 求 着 ， 那 么 两 个 独立 的 高 斯 分 布 的 联合 分 布 呢 ? 假设 xy 是 

两 个 服从 标准 正 态 分 布 的 独立 随机 变量 ， 它 们 的 联合 福 率 密度 为 
eee 
Each xt rs 5 
(a9) 


考虑 (xy) EAE») + 二 RY} 上 的 概率 


F(R)= i tag? 2 dedy 
(8.10) 


通过 极 坐 标 变换 将 (xy) 转 化 为 (6)， 可 以 很 容易 求 得 二 重 积分 ， 式 
(8.10) 变 为 





(8.11) 


这 里 F(R) 可 以 看 成 是 极 坐 标 中 r 的 累积 分 布 函数 。 由 于 F(R) 的 计算 公式 
比较 简单 ， 逆 函数 也 很 容易 求 得 ， 所 以 可 以 利用 道 变换 法 来 对 
样 ， 对 于 98， 在 [0,2m] 上 进 采样 即 可 。 这 样 就 得 到 了 (7,0), 4: 

变换 即 可 得 到 符合 标准 正 态 分 布 的 (wy)。 具 体 采 样 过 程 如 下 : 


C1) 产生 [0,1]J 上 的 两 个 独立 的 均匀 分 布 随机 数 wi,uz。 
Fe Fai cos? 


(2) 令 1= 2)sin2me， 则 xy 服从 标准 正 态 分 布 ， 并 且 是 相互 独 
立 的 。 


Box-Muller 算 法 由 于 需要 计算 三 角 函数 ， 相 对 来 说 还 是 比较 耗 时 ， 
而 Marsaglia polar method 则 避 开 了 三 角 函 数 的 计算 ， 因 而 更 快 ， 其 具体 
采样 操作 如 下 : 


(1) 在 单位 圆 盘 {G%) + 六 委 了 上 产生 均匀 分 布 随机 数 对 (xy) 
ETA -1 到 多 入 1 上 利用 拒绝 采样 法 即 可 得 到 ) 。 








4 -2ins -2Ins 
D san, M Ts ON s 是 两 个 服从 标准 正 态 分 布 的 样 


本 ， 其 中 心 " 用 来 代替 Box-Muller 算 法 中 的 cosine 和 sine 操 作 。 


除了 逆 变 换 法 ， 我 们 还 可 以 利用 拒绝 采样 法 ， 选 择 一 个 比较 好 计算 
累积 分 布 逆 函 数 的 参考 分 布 来 覆盖 当前 正 态 分 布 《 可 以 乘 以 一 个 常数 
倍 ) ， 进 而 转化 为 对 参考 分 布 的 采样 以 及 对 样本 点 的 拒绝 /接收 操作 。 
考虑 到 高 斯 分 布 的 特性 ， 这 里 可 以 用 指数 分 布 来 作为 参考 分 布 。 指 数 分 
布 的 累积 分 布 及 其 逆 函 数 都 比较 容易 求解 。 由 于 指数 分 布 的 样本 空间 
为 x>0， 而 标准 正 态 分 布 的 样本 空间 为 (-o,+eo)， 因 此 还 需要 利用 正 态 分 
布 的 对 称 性 来 在 半 坐 标 轴 和 全 坐标 轴 之 间 转 化 。 具 体 来 说 ， 取 本 1 的 指 
数 分 布 作 为 参考 分 布 ， 其 密度 函数 为 


00=e 








(8.12) 
对 应 的 累积 分 布 函数 及 其 逆 函 数 分 别 为 
FQ)=1-e%, 
(8.13) 
FM) =—log(l-u). 
(8.14) 


利用 逆 变换 法 很 容易 得 到 指数 分 布 的 样本 ， 然 后 再 根据 拒绝 采样 法 来 决 
定 是 否 接受 该 样本 ， 接 受 的 概率 为 





= Pe) 
MOTT 46), 
(8.15) 
P(x) = e z (x20) 7 7 ann 
其 中 Te 是 标准 正 态 分 布 压缩 到 正 半 轴 后 的 概率 密度 函 
数 ， 因子 M 需 要 满足 如 下 条 件 : 
P(X) SM + g(x), Yx > 0. 

(8.16) 


实际 应 用 时 ，M 需 要 尽 可 能 小 ， 这 样 每 次 的 接受 概率 大 ， 采 样 效率 更 
高 。 因 此 ， 可 以 取 


M =sup 2 


S40, 
(8.17) 
计算 后 得 到 接受 概率 


(8.18) 
因此 ， 有 具体 的 采样 过 程 如 下 : 


(1) 产生 [0,1] 上 的 均匀 分 布 随机 数 uo， 计 算 x= F (xu) 得 到 指数 分 
布 的 样本 x。 


(2) 再 产生 [0,1] 上 的 均匀 分 布 随机 数 uj， 若 4 < 400， 则 接受 x， 
进入 下 一 步 ; 否则 拒绝 ， 跳 回 到 步 又 1 重新 采样 。 


(3) 最 后 再 产生 [0.1] 上 的 均匀 分 布 随机 数 u， 若 wo<0.5， 则 将 x 转 
化 为 -x， 否 则 保持 不 变 ， 由 此 最 终 得 到 标准 正 态 分 布 的 一 个 样本 。 


拒绝 采样 法 的 效率 取决 于 接受 概率 的 大 参考 分 布 与 目标 分 布 越 
接近 ， 则 采样 效率 越 高 。 有 没有 更 高 效 的 臣 样 算法 呢 ? 
Ziggurat 算 法 ， 该 算法 本 质 也 是 拒绝 采样 ， 多 个 阶梯 矩形 i 
目标 分 布 〔 见 图 8.5) . Ziggurat tik RRE EKRAAN, (ASIA 
并 不 复杂 ， 操 作 也 非常 高 效 ， 感 兴趣 的 读者 可 以 自行 查阅 相关 文献 。 












ied 








1.00 


076 














ow O 10s 136149 172 Toe aa 


图 85 Ziggurat 算 法 示意 图 


Ba STR 


高 斯 分 布 的 采样 方法 还 有 很 多 ， 我 们 只 列举 了 几 种 最 常见 的 。 具 体 
面试 时 ， 面 试 者 不 需要 回答 所 有 的 方法 ， 知 道 其 中 一 两 种 即 可 ， 面 试 官 
可 能 会 针对 这 一 两 种 方法 深入 提问 ， 如 理论 证 明 、 优 缺点 、 性 能 等 。 面 
试 时 如 果 没 有 思路 ， 可 以 回忆 那些 通用 的 采样 方法 ， 如 何 将 那些 策略 用 
到 高 斯 分 布 这 个 具体 案例 上 。 另 外 ， 本 题 还 可 以 适当 扩展 ， 例 如 ， 多 维 
高 斯 分 布 随机 向 量 如 何 采样 ? 截 尾 高 斯 分 布 (Truncated Gaussian 
Distribution) 如 何 采 样 ? 








正春 分 布 为 何 又 称 高 斯 分 布 


正 态 分布 最 早出 现在 1738 年 楼 葛 弗 《Abraham de Moivre) 著作 的 书迷 《The 
Doctrine of Chances} 分 布 的 参数 m 很 大 且 参 数 p 为 12 时 ， 对 应 的 近似 分 布 函数 
就 是 正 态 分 布 当 时 还 没有 被 命名 为 正 态 分 布 ) 。 后 来 ， 拉 普 拉 斯 Piere-Simon marquis 
de Laplace) 将 二 项 分 布 的 正 态 近 似 这 个 结论 扩展 到 任意 参数 0<p<1， 即 现在 的 要 真 弗 - 拉 
普 拉 斯 定理 。 标 英 弗 在 二 项 分 布 的 计算 中 管见 了 正 杰 分布 的 模样 ， 不 过 他 并 没有 展现 这 
TUPI ID Ie. MSDS Ee AIG EMMEE SIE} CIPHIE L M 
i š 正 态 分布 当时 也 只 是 以 极限 分 布 的 形式 出 
现 ， 并 没有 在 统计 学 ， 尤 其 是 误差 分 析 中 发 挥 作用 。 这 也 是 正 态 分 布 最 终 没有 被 冠 名 标 
在 弗 分 布 的 重要 原因 - 


后 来 ， 拉 普 拉 斯 在 误差 分 析 试验 中 使 用 了 正 态 分 布 。 勤 让 德 (Adrien-Marie 
Legendre) 于 1805 年 引入 最 小 二 乘法 这 一 重要 方法 ， 而 高 斯 (Johann Carl Friedrich 
Gauss) 则 宣称 他 早 在 1794 年 就 使 用 了 该 方法 ， 并 通过 假设 误差 服从 正 态 分 布 给 出 了 严格 
的 证 明 。 高 斯 的 介入 首先 要 从 天 文学 界 的 一 个 事件 说 起 。1801 年 1 月 ， 天 文学 家 朱 塞 普 : 皮 
WA (Giuseppe Piazzi) 发 现 了 一 颗 从 未 见 过 的 光度 8 等 的 是 在 移动 ， 这 颗 现在 被 称 作 谷 
HR (Cores) 的 小 行星 在 夜空 中 出 现 6 个 星期 ， 扫 过 八 度 角 后 就 在 太阳 的 光芒 下 没 了 踪 
影 ， 无 法 观测 。 留 下 的 观测 数据 有 限 ， 天 文学 家 难以 计算 出 它 的 轨道 ， 因 此 也 无 法 确定 
这 颗 新 星 是 顽 星 还 是 行星 ， 这 个 问题 很 快 成 了 学 术 界 关注 的 焦点 。 高 斯 当时 已 经 是 很 有 
名 望 的 年 轻 数学 家 了 ， 这 个 问题 也 引起 了 他 的 兴趣 。 他 以 齐 越 的 数学 才能 创立 了 一 套 全 
新 的 行星 加 道 计算 方法 ， 很 快 就 计算 出 了 谷 神 星 的 轨道 ， 并 预言 了 它 在 夜空 中 出 现 的 时 
间 和 位 置 。1801 年 12 月 31 日 夜 ， 德 国 天 文 爱好 者 奥 伯 斯 (Heinrich Olbers) 在 高 斯 预言 的 
时 间 里 ， 用 望远镜 对 准 了 这 片 天 空 。 果然 不 出 所 料 ， 谷 神 星 出 现 了 ! 高 斯 为 此 名 声 大 
震 ， 但 是 他 当时 拒绝 透 器 计算 轨道 的 方法 。 原 因 可 能 是 ， 高 斯 认为 自己 的 方法 的 理论 基 
础 还 不 驶 成 热 ， 而 他 一 向 治学 严谨、 精益 求 精 ， 不 轻易 发 表 没有 思考 成 热 的 理论 。 直 到 
1809 年 ， 高 斯 系统 地 完善 了 相关 的 数学 理论 后 ， 才 将 他 的 方法 公布 于 众 ， 而 其 中 使 用 的 
数据 分 析 方法 ， 就 是 以 正 坊 误 差分 布 为 基础 的 最 小 二 乘法 。 惑 让 德 和 高 斯 关于 最 小 二 
法 的 发 明 权 之 争 ， 成 了 数学 史上 仅 次 于 牛顿 、 莱 布 尼 蒋 微 积分 发 明 权 的 争 帝 


在 整个 正 态 分 布 被 发 现 与 应 用 的 历史 中 ， 杰 莫 弗 、 拉 普 拉 斯 、 高 斯 各 有 页 献 。 拉 普 
拉 斯 从 中 心 极限 定理 的 角度 解释 它 ， 高 斯 把 它 应 用 在 误差 分 析 中 ， 殊 途 同 归 。 正 态 分 布 
被 发 现 有 这 么 好 的 性 质 ， 各 国人 民 都 争 抢 它 的 冠名权 。 因 为 拉 普 拉 斯 是 法 国人 ， 记 以 当 
时 在 法 国 被 称 为 拉 普 拉 斯 分 布 ;而 高 斯 是 德国 人 ， 所 以 在 德国 上 作 高 斯 分 布 ， 第 三 中 立 







































国 的 人 民 称 它 为 拉 普 拉 斯 -高斯 分 布 。 RSI ACKER INSE. Jules Henri Poincaré) 奸 
议 改 用 正 态 分布 这 一 中 立 名 称 ， 随 后 统计 学 家 卡尔 .皮尔 森 (Karl Pearson》 使 得 这 个 名 称 
被 广泛 接受 【但是 正 态 分 布 这 个 名 字 似乎 会 给 人 一 种 课 误 ， 即 其 他 很 多 概率 分 布 都 是 不 
ESM 。 不 过 因为 高 斯 在 数学 界 的 名 气 实在 是 太 大 ， 正 态 分 布 的 桂冠 还 是 更 多 地 被 戴 
在 了 高 斯 头 上 ， 目 前 数学 界 是 正 态 分布 和 高 斯 分 布 丙 者 并 用 。 有 起 的 是 ，* 高 斯 分 布 * 也 下 
HEA super UREN HAPLESS AM RAE RH UEC RAT 














前 面 小 节 中 提 到 ， 在 高 维 空间 中 ， 拒 绝 采样 和 重要 性 重 采样 经 常 难 
以 寻找 合适 的 参考 分 布 ， 采 样 效率 低下 〔 样 本 的 接受 概率 小 或 重要 性 权 
重 低 ) ， 此 时 可 以 考虑 马尔 可 夫 蒙 特 卡 









(Markov on 


MCMC) Nee , MCMC 采样 法 是 机 器 学 习 中 非常 重 





， 起 源 于 域 ， 产生 
影响 。 它 可 以 用 于 很 多 比较 复杂 | 的 分 布 的 采样， 并 且 在 高 维 
使 用 。 


知识 点 
蒙特 卡 洛 法 ， 马 尔 可 夫 链 ， 吉 布 斯 采样 ，Metropolis-Hastings 采 样 


问题 1 简 述 MCMC 采 样 法 的 主要 思想 。 


难度 : deste 
分 析 与 解答 


从 名 字 看 ，MCMC 采 样 法 主要 包括 两 个 MC， 即 蒙特 卡 洛 法 
(Monte Carlo) 和 马尔 可 夫 链 (Markov Chain) 。 蒙 特 卡 洛 法 是 指 基于 
采样 的 数值 型 近似 求解 方法 ， 而 马尔 可 夫 链 则 用 于 进行 采样 。MCMC 采 
样 法 基本 思想 是 : 针对 待 采 样 的 目标 分 布 ， 构 造 一 个 马尔 可 夫 链 ， 使 得 
该 马尔 可 夫 链 的 平稳 分 布 就 是 目标 分 布 ， 然 后 ， 从 任何 一 个 初始 状态 出 

沿 着 马尔 可 夫 链 进行 状态 转移 ， 最 终 得 到 的 状态 转移 序列 会 收敛 到 














目标 分 布 ， 由 此 可 以 得 到 目标 分 布 的 一 系列 样本 。 在 实 
aT ie Se 马尔 可 即 确定 马尔 可 夫 链 的 
及 一 些 马尔 可 夫 链 的 相关 知识 点 ， 如 时 齐 性 、 细 致 GEI 
历 性 、 FEARS, 感 兴趣 的 读者 可 以 参阅 相关 资料 ， 这 里 不 再 细 述 。 






问题 2 简单 介绍 几 种 常见 的 MCMC 采 样 法 。 
WERE: doktor te 


分 析 与 解答 







心 点 是 构造 合适 的 马尔 可 夫 链 ， 不 同 的 马尔 可 夫 


MCMC 采 样 法 的 核 
常见 的 有 Metropolis-Hastings 采 样 法 和 


链 对 应 着 不 同 的 MCMC: FES 
吉 布 斯 采样 法 ， 如 图 8.6 所 示 。 











(2) Metropotis-Hastings SIE (>) seme 


图 8.6 。 MCMC 采样 示意 图 
m Metropolis-Hastings 采 样 法 


对 于 目标 分 布 pe)， 首 先 选 择 一 个 容易 采样 的 参考 条 件 分 
Aig"), JF 


Jara f. eared anean 
pog) 


(8.19) 
然后 根据 如 下 过 程 进行 采样 : 
(1) 随机 选 一 个 初始 样本 xo)。 


(2) Fort=1,2,3,...: 


。 根 据 参考 条 件 分 布 4(X be in 
。 根据 均匀 分 布 U0,1) 产 生 随机 数 
e HUKA? X), WEO =x", BMS =X 
WE, EREEREER AE a, RAE Hh 
分 布 p(x)。 图 8.6 (a) 是 Metropolis-Hastings 算 法 采样 过 程 的 一 个 示意 
图 ， 其 中 红线 表示 被 拒绝 的 移动 维持 旧 样 本 ) ， 绿 线 表 示 被 接受 的 移 
动 (采纳 新 样本 ) 。 
里 吉 布 斯 采样 法 
吉 布 斯 采样 法 是 Metropolis-Hastings 算 法 的 一 个 特例 ， 其 核心 思想 
是 每 次 只 对 样本 的 一 个 维度 进行 采样 和 更 新 。 对 于 目标 分 布 p(x)， 其 中 
XE (Apo 向 是 多 维 向 量 ， 按 如 下 过 程 进行 采样: 


(1) 随机 选择 初始 状态 xz =O APP). 


(2) Fort=1,2,3,...: 

















e 对 于 前 一 步 产生 的 样本 xD = OPA), RAR 
样 和 更 新 每 个 维度 的 值 ， 即 依次 抽取 分 量 并" ~ p l”, 
aA), Pale LAA] nl Pa 


plxs xx ); 


。 形成 新 的 样本 x =OP AP r) 


同样 可 以 证 明 ， 上 述 过 程 得 到 的 样本 序列 {.…x" ,x 中 ,会 收敛 到 目 
标 分 布 p(y)。 另 外 ， 步 骤 (2) 中 对 样本 每 个 维度 的 抽样 和 更 新 操作 ， 不 
是 必须 按 下 标 顺序 进行 的 ， 可 以 是 随机 顺序 。 


在 拒绝 采样 中 ， ees 步 中 采样 被 拒绝 ， 则 该 步 不 会 产生 新 样 

采样 MCMC 采 样 法 每 一 步 都 会 产生 一 个 
样本 一 样 而 已 。 另 外 ，MCMC 采 样 
程 中 逐渐 收 伍 到 平稳 分 布 的 ， 因 此 实际 应 用 中 一 般 会 
对 得 到 的 样本 序列 进行 "burn-in* 处 理 ， 即 截 除 掉 序列 中 最 开始 的 一 部 分 
样本 ， 只 保留 后 面 的 样本 。 








问题 3 MCMC 采 样 法 如 何 得 到 相互 独立 的 样本 ? 


难度 交友 立交 六 
分 析 与 解答 


与 一 般 的 蒙特 卡 洛 算法 不 同 ，MCMC 采 样 法 得 到 的 样本 序列 中 相 邻 
rig 因为 后 一 个 样本 是 由 前 一 个 样本 根据 特定 的 转移 概 
it 有 一 定 概率 就 是 前 一 个 样本 。 如 果 仅仅 是 采样 ， 

实 规 要 7 全 独立 同 分 布 的 样本 ， 可 


选取 一 个 ， 这 样 选取 出 米 的 样本 也 是 
















“总 结 与 扩展 


MCMC 采 样 法 应 用 十 分 广泛 ， 比 如 可 以 思考 如 何 用 MCMC 采 样 法 
pare t a MCMC 采 样 法 在 最 大 似 然 估 计 或 贝 叶 斯 推理 中 是 
如 何 使 用 的 ? 


用 MCMC 采 样 法 破解 密码 


斯 坦 福 大 学 统计 学 教授 Persi Diaconis 是 一 位 传奇 人 物 。 他 在 14 岁 时 就 成 了 一 名 魔术 
师 。 为 了 看 屋 数 学 家 William Feller 的 松 率 论著 作 ， 他 24 岁 就 进入 大 学 读书 。 由 于 Diaconis 
曾 向 《科学 美国 人 》 投 稿 介绍 他 的 洗 牌 方法 ， 使 得 在 《科学 美国 人 》 上 常年 开设 数学 游 

戏 专栏 的 著名 数学 科普 作家 Martin Gardner 给 他 写 了 推荐 信 去 哈佛 大 学 。 当 时 哈佛 大 学 的 
统计 学 家 Erederick Mosteller 正 在 研究 魔术 ， 于 是 Diaconis 成 了 Mosteller 的 学 生 〔 对 他 这 纂 
传奇 经 历 有 兴趣 的 读者 可 以 看 一 看 统计 学 史话 《女士 曲 茶 》)》 。 下 面 要 讲 的 这 个 故事 ， 

起 paeonis 丰 他 的 文章 “The Markov Chain Monte Carlo Revolution "PENANTE A EES 


天 ， 一 位 研究 犯罪 心理 学 的 医生 来 到 斯 坦 柱 大 学 拜访 Diaconis。 他 带 来 了 一 个 办 
犯 所 写 的 ， 和 希望 Diaconis 能 帮 他 找 出 密码 中 的 信息 。 这 个 密码 里 的 每 个 符号 应 该 
ER 【 见 图 87) ， 但 是 如 何 把 这 些 字母 准确 地 找 出 来 呢 ? Diaconis 和 他 的 学 生 
Mare Coram 采 用 了 MCMC 采 样 法 解决 了 这 个 问题 - 

















pr A alo 


其 实 是 一 个 非常 典型 的 恺 攻 密 码 。 手 工 用 频率 分 析 法 ， 党 试 不 同 的 组 合并 观察 结 
有 意义 也 可 以 解决 这 个 问题 。 但 是 ， 除 了 部 分 高 频 字母 ， 大 部 分 字母 的 出 现 频率 
是 差不多 的 ， 而 且 与 文本 内 容 有 关 ， 这 样 需要 党 试 非常 多 的 组 合 ， 而 且 需要 人 为 地 判断 
结果 是 否 有 意义 。 因 此 ， 单 纯 地 依靠 字母 频率 分 析 是 不 够 的 ， 应 该 考虑 更 一 般 的 特征 ， 
比如 字母 之 间 的 共同 出 现 的 频率 。 更 进一步 地 ， 可 以 考虑 字母 之 同 的 转移 概率 ， 例 如 ， 
当前 一 个 字母 为 畏 音 时 ， 后 一 个 字母 出 现 元 音 的 概率 更 大 ， 或者， 连续 几 个 畏 音 出 现 之 
后 再 出 现 辅音 的 概率 将 非常 低 。 这 样 就 可 以 请 出 MCMC 方 法 了 ， 以 大 量 英文 语 料 为 基 
础 ， 统 计 从 字母 x 到 字母 y 的 转移 概率 ， 无 论 是 加 密 前 还 是 加 密 后 的 文本 ， 特 定位 置 之 问 
的 转移 概率 是 一 致 的 ， 大 致 超 近 于 正常 英文 语 料 的 转移 概率 . 


Diaconis 和 他 的 学 生 Coram 技 照 这 个 思路 对 窗 文 进行 解密 。 首先， 用 《战争 与 和 
平 } 作为 标准 文本 ， 统 计 一 个 字母 到 另 一 个 字母 的 一 步 转移 概率 ， 然 后， 根据 Metropolis- 
Hastings 算 法 ， 在 假设 所 有 对 应 关系 出 现 的 可 能 性 相等 的 前 提 下 〔 也 就 是 无 信息 先 验 ) ， 
随机 给 出 了 密码 字符 和 字母 的 对 应 关系 ;再 利用 前 边 得 到 的 转移 概率 ， 计 算 这 种 对 应 关 
FNS SNL RE, TRENNEN, IIMA 
关系 的 概率 p2， 报 后 ， 如 果 p2>p1， 接 受 新 的 对 应 关系 ， 否则 ， 抛 一 枚 以 p2pl 的 概率 出 现 
正面 的 硬币 。 加 打出 议 正 而 。 风 接受 新 的 对 应 关系 ， 基 则 依然 保持 旧 有 的 对 他 关系 这 
就 是 Metropolis-Hastings 算 法 的 运用 ， 当 算法 收 化 时 ， 就 会 得 到 真实 的 对 应 关系 。 事 实 
算法 运行 了 2000 多 步 的 时 候 ， 就 得 到 了 一 个 混合 了 英语 和 西班牙 语 的 文本 段落 ， 








































如 图 8.8 所 示 - 


to batezb. con todo mi respeto. 4 was sitting doun playing ches 
denny de en amà boner de el centre vas sitting ext Co te, borer 
Baking loud and loed voices so 1 tell Ain por favor can yeu kiek beck 
omie causa im playing chess a minute Tater the vato searte back up agaia 
so tma tine 1 tell Bin con respecto honie can You kick back. the vato 
top for a minute and he starta sp again so 4 tell hin check this out abut 
‘sn up cause in tired of your voice and sf you got a problen with 1t 
‘an go to celda and handle ie. 4 foally felt disrespected thate why £ 
lsn. anyways after 1 ell ia that the next thing 1 know that vato 
Slashes me and leaves. dy the tine 4 figure im Bit 4 try to get avay but 
‘the e.o. 1s walking in ay direction and he geta me right dy & colds 
Zo to the hole. when in in the hale ay home boys Mit doxer so nov 
Siso in tho hole. shile in in the bole iz getting echoold wrong and 
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场景 描述 
概率 图 模型 经 常 被 用 来 描述 多 个 随机 变量 的 联合 概率 分 布 。 贝 叶 斯 
网 络 ， 又 称 信念 网 络 或 有 向 无 环 图 模型 。 它 是 一 种 概率 图 模型 ， 利 用 有 





向 无 环 图 来 刻画 一 组 随机 变量 之 间 的 条 件 概率 分 布 关 系 。 图 8.9 是 贝 叶 
斯 网 络 的 一 个 经 典 例子 ， 用 来 刻画 Cloudy、Sprinkler、Rain、WetGrass 
等 变量 之 间 的 条 件 分 布 关系 。 
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知识 点 


概率 图 模型 ， 条 件 概率 ， 采 样 


问题 ”如何 对 贝 叶 斯 网 络 进行 采样 ?3 如 果 只 需要 考虑 一 
部 分 变量 的 边缘 分 布 ， 如 何 采样 ? 如 果 网 络 中 含有 观测 
变量 ， 又 该 如 何 采样 ? 





难度 :次 克 克 妆 六 
分 析 与 解答 


对 一 个 没有 观测 变量 的 贝 叶 斯 网 络 进行 采样 ， 最 简单 的 方法 是 祖先 
(Ancestral Sampling) ， 它 的 核心 思想 是 根据 有 向 图 的 顺序 ， aut 
行 采 某 个 节 所 有 父 节点 都 已 完成 采 时 
nr 3 以 场景 述 中 的 图 8.9 为 例 ， 先 对 Cloudy 变 量 进 
样 ， 然 后 再 对 Sprinkler 和 Rain 变 量 进行 采样 ， 最 后 对 WetGrass 变 量 采 
样 ， 如 图 8.10 所 示 (图 中 绿色 表示 变量 取 值 为 Tue， 红 色 表 示 取 值 为 
False) 。 根 据 贝 叶 斯 网 络 的 全 概率 公式 









psa =T Jolpals), 
(8.20) 
可 以 看 出 祖先 采样 得 到 的 样本 服从 贝 叶 斯 网 络 的 联合 概率 分 布 。 
加 国 
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图 8.10 祖先 采样 示例 图 


果 只 需要 对 贝 叶 斯 网 络 中 一 部 分 随机 变量 的 边缘 分 布 进行 
可 以 用 祖先 采样 先 对 全 部 随机 变量 进行 采样 ， 然 后 直接 忽视 那 
的 变量 的 采样 值 即 可 。 由 图 可 见 ， 如 果 需 要 对 边缘 分 布 p(Rain) 进 行 采 











样 ， 先 用 祖先 采样 得 到 全 部 变量 的 一 个 样本 ， 如 (Cloudy=T, 
Sprinkler=F, Rail WetGrass=T) ， 然 后 忽略 掉 无 关 变 量 ， 直 接 把 这 
个 样本 看 成 是 Cloudy=T 即 可 。 
接 下 来 考虑 含有 观测 变量 的 贝 叶 斯 网 络 的 采 
sh lite (Sprikler=T, WetGrass=T ) 
， 又 该 如 何 采样 呢 ? 最 直接 的 方法 是 逻辑 


变 
， 否 则 拒绝 ， 重 新 采样 。 这 种 方法 的 缺点 是 采样 效率 可 
着 观测 变量 个 数 的 增加 、 每 个 变 数目 的 上 升 ， 逻 
剧 下 降 ， 实 际 中 基本 不 可 用 。 
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， 如 图 8. 1 所 示 。 网 
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图 8.11 含有 观测 变量 的 贝 叶 斯 网 络 


因此， 在 实际 应 用 中 ， 可 以 参考 重要 性 采样 的 思想 ， 不 再 对 观测 变 
， 只 对 非 观测 变量 采样 ， 但 是 最 终 得 到 的 样本 需要 赋 一 个 重 





wa [JPE palz), 


nE 


(8.21) 


其 中 是 观测 变量 集合 。 这 种 采样 方法 称 作 似 然 加 权 采 样 (Likelihood 
Weighted Sampling) ， 产 生 的 样本 权 值 可 以 用 于 后 续 的 积分 操作 。 在 有 
观测 变量 (Sprikler=T，WetGrass=T) 时 ， 可 以 先 对 Cloudy 进 行 采样 ， 
然后 对 Rain 进 行 采样 ， 不 再 对 Sprinkler 和 WetGrass 采 样 ( 直 接 赋 观测 
值 ) ， 如 图 8.12 所 示 。 这 样 得 到 的 样本 的 重要 性 权 值 为 


we<p(Sprinkler=T|Cloudy=T)-p(WetGrass=T|Sprinkler=T, 
Rain=T)=0.1*0.99=0.099. 
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图 812 似 然 加 权 采 样 示例 图 


除 此 之 外 ， 还 可 以 用 MCMC 采 样 法 来 进行 采样 。 具 体 来 说 ， 如 果 采 

用 Metropolis-Hastings 采 样 法 的 话 ， 如 图 8.13 所 示 ， 只 需要 在 随机 向 量 
f, Eaa REENT 
转换 ， 每 次 转 接受 最 终 得 到 的 样本 
F: 会 收敛 到 目标 分 布 。 最 简单 的 概 PERAN 每 次 独立 地 随 
机 选择 (Cloudy, Rain) 的 四 种 状 。 如 果 采 用 吉 布 斯 采样 法 的 
话 ， 根 据 条 件 概率 p(Cloudy|Rain， Sprinkler, * WetGrass)filp(Rain|Cloudy, 
Sprinkler, WetGrass)， 每 次 只 对 (Cloudy, Rain) 中 的 一 个 变量 进 和 

样 ， 交 蔡 进 行 即 可 。 
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图 8.13 用 Metropalis-Hastings 采 样 法 对 贝 叶 斯 网 络 进行 采样 
总结 与 扩展 
本 节 还 有 一 些 相关 的 扩展 问题 ， 例 如 ， 如 果 是 连续 型 随机 变量 ,或 


者 是 无 向 图 模型 〈 即 马尔 可 夫 随 机 场 ，Markov Random Field) ， 上 述 方 
法 有 哪些 不 适用 ， 哪 些 仍然 适用 ? 具体 该 如 何 采样 ? 


07 不 均衡 样本 集 的 重 采样 


ly 网 络 入 侵 检 测 、 信 用 卡 反 诈 

。 对 于 很 多 分 类 算法 ， 如 果 直 
存在 一 些 问题 。 例 如 ， 如 果 
sr EN ARAUAN A Ae 
显然 这 并 不 是 我 们 想 要 的 ， 我 们 想 让 分 类 器 在 正 
哆 的 准确 率 和 召回 率 。 







eis ie 
能 达到 99% 的 正确 
样本 和 负 样 本 上 都 有 足 





知识 点 
采样 ， 数 据 扩充 


问题 对 于 二 分 类 问题 ， 当 训练 集中 正 负 样本 非常 不 均 
衡 时 ， 如 何 处 理 数据 以 更 好 地 训练 分 类 模型 ? 


难度 克 克 克 交 六 
分 析 与 解答 


为 什么 很 多 分 类 模型 在 训练 数据 不 均衡 时 会 出 现 问题 ? 本 质 原因 是 
模型 在 训练 时 优化 的 目标 函数 和 人 们 在 测试 时 使 用 的 评价 标准 不 一 致 。 
这 种 “不 一 致 "可 能 是 由 于 训练 数据 的 样本 分 布 与 测试 时 期 望 的 样本 分 布 
不 一 致 ， 例 如 ， 在 六 
1:99) 的 正确 À 
正确 率 尽 可 能 大 《实际 上 是 期 望 正 负 样本 比例 为 1 : 1) :也 可 能 是 由 于 





训练 阶段 不 同类 别 的 权重 〈 重 要 性 ) 与 测试 阶段 不 一 致 ， 例 如 训练 时 认 ， 
为 所 有 样本 的 贡献 是 相等 的 ， 而 测试 时 假 阳性 样本 〈EFalse Positive) 和 
伪 阴 性 样本 False Negative) OER 





根据 上 述 分 析 ， 一 般 可 以 从 两 个 角度 来 处 理 样本 不 均衡 问题 [171。 
曙 基 于 数据 的 方法 


对 数据 进行 重 采样 ， 使 原本 不 均衡 的 样本 变 得 均衡 。 首 先 ， 记 样本 
数 大 的 类 别 为 Cno， 样 本 数 小 的 类 别 为 Cnn， 它 们 对 应 的 样本 集 分 别 
为 swa 和 Swn。 BREE, HSn Snn 


最 简单 的 处 理 不 均衡 样本 集 的 方法 是 随机 采样 一 般 分 为 过 采 
FÉ (Over-sampling) 和 欠 采 样 “Under-sampling〉。 随 机 过 采样 是 从 少 
数 类 样本 集 Smin 中 随机 重复 抽取 样本 有 放 回 ) 以 得 到 更 多 样本 ; 随机 
欠 采 样 则 相反 ， 从 多 数 类 样本 集 Smw 中 随机 选取 较 少 的 样本 有 放 回 或 
无 放 回 ) 。 











直接 的 随机 采样 虽然 可 以 使 样本 集 变 得 均衡 ， 但 会 带 来 一 些 问题 ， 
比如 aaa 类 样本 进行 了 多 次 复制 ， 扩 大 了 数据 规模 ， 增 加 了 
模型 复杂 度 ， 同 时 也 容易 造成 过 拟 合 ， 欠 采样 会 丢弃 一 些 样 本 ， 
SEEM A ES 造成 模型 只 学 到 了 整体 模式 的 一 部 分 。 


为 了 解决 上 述 问题 ， 通 常 在 过 采样 时 并 不 是 简单 地 复制 样本 ， 而 是 
采用 一 些 方法 生成 新 的 样本 。 例 如 ，SMOTE 算 法 对 少数 类 样本 集 Swin 中 
每 个 样本 x， 从 它 在 Sn 中 的 K 近 邻 中 随机 选 一 个 样本 y， 然 后 在 xy 连 线 
上 随机 选取 一 点 作为 新 合成 的 样本 《根据 需要 的 过 采样 


程 若干 次 ) ， 如 图 8.14 所 示 。 这 种 合成 新 样本 的 过 采样 方法 可 以 降低 过 
拟 合 的 风险 











图 8.14 SMOTE 算 法 


SMOTE 算 法 为 每 个 少数 类 样本 合成 相同 数量 的 新 样本 ， 这 可 能 会 
增 大 类 间 重 受 度 ， 并 且 会 生成 一 些 不 能 提供 有 益 信息 的 样本 。 Sout 
Borderline-SMOTE、ADASYN 等 改进 算法 。Borderline-SMOTE 只 给 那些 
处 在 分 类 边界 上 的 少数 类 样本 合成 新 样本 ， 而 ADASYN 则 给 不 同 的 少数 
类 样本 合成 不 同 个 数 的 新 样本 。 此 外 ， 还 可 以 采用 一 些 数据 清理 方法 
(如 基于 Tomek Links) 来 进一步 降低 合成 样本 带 来 的 类 间 重 倒 ， 以 得 
到 更 加 良 定义 (well-defined》 的 类 簇 ， 从 而 更 好 地 训练 分 类 器 。 


同样 地 ， 对 于 欠 采 样 ， 可 忆 Informed Undersampling 来 解决 由 于 
随机 欠 采 样 带 来 的 数据 丢失 问题 。 常 见 的 Informed ”Undersampling 算 法 
有 : 


(1) Easy Ensemble 算 法 。 每 次 从 多 数 类 Smo 中 上 随机 抽取 一 个 子 
集 E(|E|s|Smin)， 然 后 用 E+Smin 训 | 练 一 个 分 类 器 ; i 
得 到 多 个 分 类 器 ， 最 终 的 分 类 结果 是 这 多 个 分 类 器 结果 的 融合 


(2) Balance Cascade 算 法 。 级 联结 构 ， 在 每 一 级 中 从 多 数 类 Sn 中 
随机 抽取 子 集 E， 用 E+Smin 训 练 该 级 的 分 类 器 ;然后 将 Smg 中 能 够 被 当前 
分 类 器 正确 判别 的 样本 剔除 掉 ， 继 续 下 一 级 的 操作 ， 重 复 若 干 次 得 到 级 
联结 构 ， 最 终 的 输出 结果 也 是 各 级 分 类 器 结果 的 融合 。 


(3) 其 他 诸如 NearMiss (利用 K 近 邻 信息 挑选 具有 代表 性 的 样 
Æ) 、One-sided Selection (采用 数据 清理 技术 ) 等 算法 。 


在 实际 应 用 中 ， 具 体 的 采样 操作 可 能 并 不 总 是 如 上 述 几 个 算法 一 
样 ， 但 基本 思路 很 多 时 候 的 。 例 如 ， 基 于 聚 类 的 采样 方法 ， 利 
用 数据 的 类 簇 信息 来 指导 过 采样 /9 操作 ; 用 到 的 数据 扩充 方 
法 也 是 一 对 少数 类 样本 进行 一 些 噪声 扰动 或 变换 (如 图 像 数 
据 集中 对 图 片 进行 裁剪 、 翻 转 、 旋 转 、 加 光照 等 以 构造 出 新 的 样本 ; 
re Negative Mining 则 是 一 种 欠 采 样 ， 把 比较 难 的 样本 抽出 来 用 于 办 
代 分 


里 基于 算法 的 方法 


在 样本 不 均衡 时 ， 也 可 以 通过 改变 模型 训练 时 的 目标 函数 〈 如 代价 
敏感 学 习 中 不 同类 别 有 不 同 的 权重 ) 来 矫正 这 种 不 平衡 性 ， 当 样本 数目 











极其 不 均衡 时 ， 也 可 以 将 问题 转化 为 单 类 学 习 Cone-class learning) ~ 
异常 检测 (anomaly detection) 。 本 节 主要 关注 采样 ， 不 再 奖 述 。 


“总 结 与 扩展 


在 实际 面试 时 ， 这 道 题 还 有 很 多 可 扩展 的 知识 点 。 例 如 ， 模 型 在 不 
均衡 样本 集 上 的 评价 标准 ; 不 同样 本 量 〔 绝 对 数值 ) 下 如 何 选择 合适 的 
处 理 方法 〈 考 虑 正 负 样 本 比例 为 1 : 100 和 1000 : 100000 的 区 别 ) ， 代价 
和 采样 方法 的 区 别 、 联 系 以 及 效果 对 比 等 。 











第 9 章 “前 向 神经 网 络 


深度 前 馈 网 络 (Deep Feedforward Networks) 是 一 种 典型 的 深度 学 
习 模 型 。 其 目标 为 拟 合 eae ala =f (x;0) 将 输入 x 转化 为 某 





深度 前 馈 网 络 通常 由 多 个 函数 复合 在 一 起 来 表示 ， 该 模型 与 一 个 有 
向 无 环 图 相关 联 ， 其 中 图 则 描述 了 函数 的 复合 方式 ， 例 如 “ 链 式 结构 "| 
COEF O F CCfO09))。 链 的 全 长 定义 为 网 络 模型 ”。 假 
函数 为 f (x)， 在 神经 网 络 的 过 程 中 ， 我 人 试图 令 f 0 
练 数据 则 提供 在 不 取信 (的 近 
指明 条 








深度 前 馈 网 络 是 一 类 网 络 模型 的 统称 ， 我 们 常见 的 多 层 感知 机 、 自 
编码 器 、 限 制 玻 尔 兹 曼 机 ， 以 及 卷 积 神经 网 络 等 ， 都 是 其 中 的 成 员 。 


01 多 层 感知 机 与 布尔 函数 


场景 描述 


神经 网 络 概念 的 诞生 很 大 程度 上 受到 了 神经 科学 的 启发 。 生 物 学 研 
究 表 明 ， 大 脑 皮层 的 感知 与 计算 功能 是 分 层 实 现 的 ， 例 如 视觉 图 像 ， 首 
先 光 信号 进入 大 脑 皮 层 的 V1 区 ， 即 初级 视 皮 层 ， 之 后 依次 通过 V2 层 和 
V4 层 ， 即 纹 外 皮层 ， 进 入 下 晒 叶 参与 物体 识别 。 深 度 神经 网 络 ， 除 了 











模拟 人 脑 功 能 的 多 层 结构 ， 最 大 的 优势 在 于 能 够 简洁 的 方式 来 
表达 比 浅 层 网 络 更 复杂 的 函数 集合 (这 里 的 “简洁 "可 定义 为 隐 层 单元 的 
数目 与 输入 单元 的 数目 呈 多 项 式 关系 ) 。 我 们 的 问题 将 从 一 个 





子 引 出 ， 已 知 神经 网 络 中 每 个 节 行 “逻辑 与 /或 / 非 ”的 运算 ， 
如 何 构造 一 个 多 层 感知 机 (Multi-Layer Perceptron，MLP) 网 络 实现 n 个 
输入 比特 的 奇偶 校 验 码 ( 任 意 布尔 函数 ) ? 


知识 点 
数理 逻辑 ， 深 度 学 习 ， 神 经 网 络 


问题 1 多 层 感知 机 表示 异 或 逻辑 时 最 少 需 要 几 个 隐 含 层 
( 仅 考虑 二 元 输入 ) ? 





难度 : dee ses se 
分 析 与 解答 


首先 ， 我 们 先 来 分 析 一 下 具有 零 个 隐藏 层 的 情况 〈 等 同 于 逻辑 回 
归 ) 能 否 表示 异 或 运算 。 仅 考虑 二 元 输入 的 情况 ， 设 X 取 值 为 0 或 1，Y 的 


取 值 也 为 0 或 1，Z 为 异 或 运算 的 输出 。 也 就 是 ， 当 X 和 了 Y 相 同时 ， 异 或 输 
为 0， 和 否则 为 1， 具 体 的 真 值 表 如 表 9.1 所 示 。 


表 9.1 异 或 运算 的 页 值 表 





回顾 逻辑 回归 的 公式 
Z=sigmoid(AX+BY+C) , 


(9.1) 





当 AX+BY+C 的 取 值 增 大 时 ，Z 的 取 
Z 的 取 值 也 减 小 。 而 AX+BY+C 对 
数 时 ，AX+BY+C 以 及 Z 的 取 值 


其 中 Sigmoid 激 活 函数 是 单调 递增 六 
值 也 增 大 ， 当 AX+BY+C 的 取 值 












O 
说 明 此 时 ZI 变化 与 X 是 下 相关 的 ， 需要 
将 X 的 取 值 从 0 变 为 1 将 导致 输出 Z 从 1 变 : 
要 设置 A 为 负数 ， 与 前 面 矛盾 。 因 此 ， 采 
感知 机 ) 无 法 精确 学 rector 









变 到 1 将 使 输出 Z 也 从 0 变 为 1， 
设置 A 为 正 数 ， 而 当 到 
0， 此 时 Z 与 X 是 负 相关 的 ， 
用 逻辑 回归 ( 即 不 带 隐藏 层 和 
的 模型 表示 。 


， 我 们 再 














Baer vert 





i ae 


不 在 面试 的 要 求 范围 ， 不 过 
数 是 通用 近似 定理 适用 的 
强 的 ， 关 键 在 于 我 们 是 否 能 






et 数 





在 这 里 ， 我 们 还 并 不 涉及 模型 参 

模型 参数 以 说 明 包含 一 个 隐 含 层 的 多 层 感知 | 
数 ， 如 图 9.1 所 示 。 图 中 有 Zi 和 Z2 两 个 | 
Y 的 输入 权重 均 为 1， 且 偏 置 为 1， 等 同 =X+Y-1， 再 应 用 ReLU 
激活 函数 max(0,H1)， 其 真 值 表 如 表 9.2 所 示 。 同 理 ， 隐 茂 单 元 Zs 的 输入 
偏 置 为 -1， 真 值 表 如 表 9.3 所 示 。 可 以 看 到 ， 个 隐藏 

元 在 X 和 Y 均 为 1 上 第 二 个 隐藏 单元 在 X 和 Y 均 为 O 时 激活 ， 最 后 
AATE T 做 一 个 线性 变换 即 可 实现 异 或 操作 ， 如 表 9.4 
所 示 。 

















图 9.1 可 以 进行 异 或 运算 的 多 层 感 知 机 
表 9.2 隐 层 神经 元 Z1 的 真 值 表 








on I 


表 9.3 隐 层 神经 元 Z2 的 真 值 表 
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表 9.4 给 





2Z 的 真 值 表 





E 够 实现 





难度 : doko ve 


分 析 与 解答 


包含 n 元 输入 的 任意 布尔 函数 可 以 唯一 表示 为 析 取 范 式 (Disjunctive 
Normal Form, DNF) (由 有 限 个 简单 合 取 式 构成 的 析 取 式 ) 的 形式 。 
先 看 一 个 n=5 的 简单 示例 
YEKA, X, X K, +X, X, X,X,X, +K, X,X,X X; + 
XIA X+ XKX AA, +X XK Xs 





(9.2) 


在 式 (9.2) 中 ， 最 终 的 输出 Y 可 以 表示 成 由 6 个 合 取 范式 所 组 成 的 析 取 
范式 。 该 函数 可 由 包含 6 个 隐 节 点 的 3 层 感知 机 实现 ， 如 图 9.2 所 示 。 





为 正 OD ， 则 设 权重 为 1; 
设 权重 为 -1， 若 没有 在 合 取 范式 中 出 现 。 设 权重 
区 范式 中 变量 的 总 数 取 负 之 后 再 加 1。 可 以 看 出 
激活 数 之 后 ， 当 且 仅 当 所 有 出 现 的 布尔 HR 
时 ， 该 隐藏 单元 才 会 被 激活 输出 1) ， 否 则 输出 0， a 
义 的 相符 的 。 然 后 ， 令 所 有 隐藏 单元 到 答 出 层 的 参 : 为 1 
为 0。 这 样 ， 当 且 仅 当 所 有 的 隐藏 单 元 都 未 被 激活 时 ， 才 会 输 
， 否 则 都 将 输出 一 个 正 数 ， 起 到 了 析 取 的 作用 。 


我 们 可 以 使 用 卡 诺 图 表示 析 取 式 ， 即 用 网 格 表示 真 值 表 ， 当 输入 的 
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合 取 式 值 为 1 时 ， 则 填充 相应 的 网 格 。 卡 诺 图 中 相 邻 的 填 色 区 域 可 以 进 
行规 约 ， 以 达到 化 简 布尔 函数 的 目的 ， 如 图 9.3 所 示 ， 由 图 可 见 ， 

有 W、X、Y、Z 共 4 个 布尔 变量 ，WX 的 取 值 组 合 在 纵 轴 显 示 ，IZ 的 取 值 
组 合 在 机 轴 显 示 。7 个 填 色 网 格 最 终 可 规约 为 3 个 合 取 式 ， 故 该 函数 可 由 
包含 3 个 隐 节 点 的 3 层 感知 机 实现 : 
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图 93 用 卡 治 图 表示 析 取 范式 


回顾 初始 问题 ， 在 最 差 情况 下 ， 需 要 多 少 个 隐藏 结 
元 输入 的 布尔 函数 呢 ? 现在 问题 可 以 转化 为 ， 寻 找 “最 
元 析 取 范式 ， 也 等 价 于 最 大 不 可 规约 的 卡 诺 图 。 直 观 上 ， 我 们 只 需 间隔 
填充 网 格 即 可 实现 ， 其 表示 的 布尔 函数 怡 为 n 元 输入 的 异 或 操作 ， 如 图 
9.4 所 示 。 容 易 看 出 ， 在 间隔 填充 的 网 格 上 反 转 任意 网 格 的 取 值 都 会 引 
起 一 次 规约 ， 因 此 ，n 元 布尔 函数 的 析 取 范式 最 多 包含 20- 0 个 不 可 规约 
的 合 取 范 式 ， 对 于 单 隐 层 的 感知 机 ， 需 要 20-2 个 隐 节 点 实现 。 
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图 9.4 多 元 异 或 运算 


问题 3 考虑 多 隐 层 的 情况 ， 实 现 包 含 n 元 输入 的 任意 布 


尔 函 数 最 少 需要 多 少 个 网 络 节点 和 网 络 层 ? 


HEE: dokker 
分 析 与 解答 


参考 问题 1 的 解答 ， 考 虑 二 元 输入 的 情况 ， MESTAT UER 
次 异 或 操作 ， phisu i i 构成 ， 输 出 层 


输 ZKR 
图 9.5 展 示 了 种 可 能 的 网 络 结 
A x a SAIS HH iT EEWOX: 然后 
再 加 入 3 个 节点 ， 将 W 田 X 的 输出 与 了 进行 异 或 ， 得 到 W@X@ 曙 Y， 最 后 与 Z 
进行 异 或 ， 整 个 网 络 总 共 需 要 9 个 结 点 “元 输入 包含 五 次 异 或 操 
作 ， 因 此 需要 3x5=15 个 节点 ， 网 络 的 构造 方式 可 参考 图 9.6 所 示 。 yee 
KHE, ne HRM BG EEA B(n-1) i CLL) 
以 发 现 ， 多 隐 层 结构 可 以 将 隐 节 点 的 数目 从 指数 级 O(20- SEER 
线性 级 O(3(n-1))! 
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图 9.5 实现 四 元 异 或 运算 的 一 种 网 络 结构 样 例 
在 上 面 所 举 的 例子 中 ，m 元 异 或 所 需 的 3(n-1) 个 经 以 对 应 2(n-1) 


个 网 络 层 〈 包 括 隐 含 层 和 输出 层 ) ， 上 ， 层 数 可 以 进一步 减 小 。 考 
虚 到 四 元 的 输入 W、X、Y、Z; 如 果 我 们 在 同一 层 中 计算 Ww@X 和 Y@Z， 











进行 异 或 ， 就 可 以 将 层 数 从 6 降 到 4。 根 据 二 分 思想 ， 每 
层 节点 两 两 分 组 进行 异 或 运算 ， 需 要 的 最 少 网 络 层 数 为 2og: N (向 上 取 
整 ) 。 
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图 9.6 实现 六 元 异 或 运算 的 一 种 网 络 结构 样 例 


深度 神经 网 络 中 的 激活 函数 


线性 模型 是 机 器 学 习 领域 中 最 基本 也 是 最 重要 的 工具 ， 以 逻辑 回归 
和 线性 回归 为 例 ， 无 论 通 过 闭 解 形式 还 是 使 用 凸 优化 ， 它 们 都 能 高 效 且 
可 靠 地 拟 合 数据 。 然 而 真实 情况 中 ， 我 们 往往 会 遇 到 线性 不 可 分 问题 
(如 XOR 异 或 函数 ) ， 需 要 非 线性 变换 对 数据 的 分 布 进行 重新 映射 。 对 
于 深度 神经 网 络 ， 我 们 在 每 一 层 线性 变换 后 友 加 一 个 非 线 性 活 函 数 ， 
D1 se PHI ARH A, 从 而 获得 更 强大 的 学 习 与 拟 合 能 
力 。 














知识 点 
微 积分 ， 深 度 学 习 ， 激 活 函数 


问题 1 写 出 常用 激活 函数 及 其 导数 


难度 : aerate 
分 析 与 解答 


Sigmoid 激 活 函数 的 形式 为 
7 全 GE， 


(9.3) 


对 应 的 导 函 数 为 
S'@)=fEM-FE)). 





(9.4) 
Tanh 激 活 函 数 的 形式 为 
f(z) = tanh(z) = 
(9.5) 
对 应 的 导 函 数 为 
f@=1-(f@y. 
(9.6) 
ReLU 激 活 函数 的 形式 为 
S (2) = max(0, 2), 
(9.7) 
对 应 的 导 函 数 为 
rafizi 
(9.8) 


问题 2 为 什么 Sigmoid 和 Tanh 激 活 函 数 会 导致 梯度 消失 
的 现象 ? 


难度 : teed sey 


分 析 与 解答 


Sigmoid 激 活 函数 的 曲线 如 图 9.7 所 示 。 它 将 输入 z 映 射 到 区 间 CO, 

， 当 z 很 大 时 ，flz) 趋 近 于 1;， 当 z 很 小 时 ，flz) 趋 近 于 0。 其 导数 
Pee 了 (3)0-/(z) 在 z 很 大 或 很 小 时 都 会 趋 近 于 0， 造 成 梯度 消失 的 现 
R. 








Tanh 激 活 函 数 的 曲线 如 图 9.8 所 示 。 当 z 很 大 时 ，ftz) 趋 近 于 1;， 当 z 很 
小 时 ，flz) 趋 近 于 -1。 其 导数 放 (z) =1-(f(z)) 在 z 很 大 或 很 小 时 都 会 趋 近 
于 0， 同 样 会 出 现 “ 梯 度 消失 ”。 实 际 上 ，Tanh 激 活 函数 相当 于 Sigmoid 的 
平移 : 


tanh(x)=2sigmoid(2x)-1 . 


(9.9) 





aw = 5 而 


图 97 Sigmoid 激 活 函数 





图 9.8 Tanh 激 活 函 数 


问题 3 ReLU 系 列 的 激活 函数 相对 于 Sigmoid 和 Tanh 激 活 
函数 的 优点 是 什么 ? 它们 有 什么 局 限 性 以 及 如 何 改进 ? 


WEE: poke deste str 
分 析 与 解答 


里 优点 


(1) 从 计算 的 角度 上 ，Sigmoid 和 Tanh 激 活 函数 均 需要 计算 指数 ， 
复杂 度 高 ， 而 ReLU 只 需要 一 个 阅 值 即 可 得 到 激活 值 。 


(2) ReLU 的 非 饱 和 性 可 以 有 效 地 解决 梯度 消失 的 问题 ， 提 供 相对 
宽 的 激活 边界 。 


(3) ReLU 的 单 侧 抑制 提供 了 网 络 的 稀疏 表达 能 力 。 
m JARE 


ReLU 的 局 限 性 在 于 其 训练 过 程 中 会 导致 神经 元 死亡 的 问题 。 这 是 
由 于 函数 /(z) = max(0, 5) 导 致 负 梯度 在 经 过 该 ReLU 单 元 时 被 置 为 0， 且 


在 之 后 也 不 被 任何 数据 激活 ， 即 流 经 该 神经 元 的 梯度 永远 为 0， 不 对 任 
何 数据 产生 响应 。 在 实际 训练 中 ， 如 果 (Learning Rate) 设置 较 
大 ， 会 导致 超过 一 定 比例 的 神经 元 不 可 逆 死 亡 ， 进 而 参数 梯度 无 法 更 

新 ， 整 个 训练 过 程 失败 。 


为 解雇 这 一 问题 ， 人 们 设计 了 ReLU 的 变种 Leaky 
ReLU (LReLU) ， 其 形式 表示 为 


sO te 2>0; 
2)= 





az, 2<0 
(9.10) 


ReLU 和 LReLU 的 函数 曲线 对 比如 图 9.9 所 示 。LReLU 与 ReLU 的 区 
为 0， 而 是 一 个 斜率 为 a 的 线性 函数 ， 一 般 a 为 一 
数 ， 这 样 既 实现 了 单 侧 抑制 ， 又 保留 了 部 分 负 梯 度 信息 以 
。 但 另 一 方面 ，a 值 的 选择 增加 了 问题 难度 ， 需 要 较 强 的 
人 工 先 验 或 多 次 重复 训练 以 确定 合适 的 参数 值 。 








fo) 





(a) ReLU (b) LReLU 


图 99 函数 曲线 





基于 此 ， 参 数 化 的 PReLU (Parametric ReLU) 
LReLU 的 主要 区 别 是 将 负 轴 部 分 斜率 a 作为 网 络 中 一 个 可 学 习 的 参 
进行 反 向 传播 训练 ， 与 其 他 含 参数 网 络 层 联合 优化 。 而 另 一 个 LReLU 的 
变种 增加 了 “随机 化 "机 制 ， 具 体 地 ， 在 训练 过 程 中 ， 和 斜率 a 作为 一 个 满 
足 某 种 分 布 的 随机 采样 ;测试 时 再 固定 下 来 。Random ReLU (RReLU) 
在 一 定 程度 上 能 起 到 正则 化 的 作用 。 关 于 ReLU 系 列 激活 函数 ， 更 多 详 
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03 多 层 感知 机 的 反 向 传播 算法 


场景 描述 


多 层 感知 机 中 ， 输 入 信号 通过 各 个 网 络 层 的 隐 节 点 产生 输出 的 过 程 
称 为 前 向 传播 。 图 9.10 定 义 了 一 个 典型 的 多 层 感知 机 。 为 便于 表示 ， 定 
义 第 () 层 的 输入 为 <， 输出 为 a 在 每 一 层 中 ， 首 先 利用 输入 x 和 偏 
置 p 计 算 仿 射 变换 z0=WWXO+b0， 然后 激活 函数 /作用 于 z0)， 得 到 
aP = Leax) FE), ELBE ENYA, Bla). xO Iams 
的 向 量 ，zo0 和 af 为 n 维 的 向 量 ， 则 WO 为 mxn 维 的 矩阵 。 我 们 分 别 用 
Z., a 和 PPY 表 示 其 中 的 一 个 元 素 。 


MaE ere 输出 层 











图 910 多 层 感知 机 结构 图 


在 网 络 训练 中 ， 前 向 传播 最 终 产生 一 个 标量 损失 函数 ， 反 向 传播 算 
es earns 则 将 损失 Ha RIRIN ENA KEE TE 





知识 点 
线性 代数 ， 微 积分 ， 深 度 学 习 


问题 1 写 出 多 层 感 知 机 的 平方 误差 和 交叉 焙 损 失 函 数 。 


难度 : teddies se 
分 析 与 解答 


给 定 包含 m 样 本 的 集合 {9,39)…,(x",y"Y 其 整体 代价 函数 为 
Jb) porna +2 
p-m iSS 





(9.11) 
其 中 第 一 项 为 平方 误差 项 ， 第 二 项 为 L2 正 则 化 项 ， 在 功能 上 可 称 作 权重 
衰减 项 ， 目 的 是 减 小 权重 的 幅度 ， 防 止 过 拟 合 。 该 项 之 前 的 系数 4 为 权 
重 衰减 参数 ， 用 于 控制 损失 函数 中 两 项 的 相对 权重 。 


以 二 分 类 场景 为 例 ， 交 叉 灶 损失 函数 定义 为 








JU -we ay | 4255S any 





(9.12) 
其 中 正则 项 与 上 式 是 相同 的 ; 第 一 项 衡量 了 预测 o0) 与 真实 类 别 y0 之 间 


HBS UH, SYOSS, HICK, URERA BGAE. E 
多 分 类 的 场景 中 ， 可 以 类 似 地 写 出 相应 的 损失 函数 


essen 









sora a” na”) 





(9.13) 
其 中 ok 代表 第 i 企 样本 的 预测 属于 类 别 k 的 概率 ，W@ 为 实际 的 概率 〈 如 
果 第 i 个 样本 的 真实 类 别 为 k， 则 yw=1， 否 则 为 0) 。 


问题 2 根据 问题 ene 失 函 数 ， 推 导 各 层 参数 更 
新 的 梯度 计算 公 


难度 ， 交 次 太太 六 
分 析 与 解答 
回顾 之 前 给 出 的 定义 ， 第 (1 ) 层 的 参数 为 WwW 和 b0; 每 一 层 的 线性 变 





换 为 z0 =WOx +B, HA = 7(z”)， 其 中 及 非 线性 激活 函数 
Caasigmoid. Tanh, ReLU“#) ; a 人 直接 作为 下 一 层 的 输入 ， 即 
x) =a0. 

我 们 可 以 利用 批量 梯度 下 降 法 来 优化 网 络 参数 。 梯 度 下 降 法 中 每 次 
BAC SRW 《网络 连 接 权重 ) 和 b 偏 置 》 进 行 更 新 





WP =W a> sv. 
opr ob) 


(9.14) 


H” =b -a a D) 


(9.15) 
其 中 o 为 学 习 速率 ， 控 制 每 次 迭代 中 梯度 变化 的 幅度 。 


à 
MEO ARET sa. ARAR, RI 
ERINTI RONE AEI S 


parn 








a IW by eT, 
(9.16) 
其 中 sj,j 为 第 H+1 层 的 节点 数 ， 而 
act MO pD) 
am aP g 
(9.17) 


Sew) 52,05 em ve, x =a” = 7(zm)， 因 此 式 (9.17) 可 
写 为 





oy 
amy) 
(9.18) 
J,b) 
Be” ”可 以 看 作 损失 函数 在 第 ! 层 第 i 个 节点 产生 的 残 差 量 ， 记 为 


65， 从 而 递 推 公式 可 以 表示 为 


a -{ Sa) re) 


(9.19) 


损失 对 参数 函数 的 梯度 可 以 写 为 








a VW, b sy om 
wp Otay S 
(9.20) 
Ê JW, b=” 
= of atg VOA 
(9.21) 


RRL EE PAPAS E HK Bs AT SIR — HR OY), EO, 
POW IEE ER PEE)... 6 可 以 根据 上 面 得 到 的 递 推 公式 计算 
化 起 见 ， 这 里 暂时 忽略 Batch 样 本 集合 和 正则 化 项 的 影响 ， 
两 种 损失 函数 产生 的 梯度 。 





。 平方 误差 损失 : 


ww- 





2 2 
(9.22) 
5 =-y-a) fe), 
(9.23) 
。 WET: 
ID = -Sin a” =-Yy, m fe”) 
(9.24) 


在 分 类 问题 中 ，y 仅 在 一 个 类 别 k 时 取 值 为 1， 其 余 为 0。 设 实际 的 
KAk, W 


JW, b)=-Ina 








(9.25) 
POE] 
SG 
(9.26) 
服 SoftMax 激 活 函数 时 ，1 0 = /Cod- Co)， 因 此 
8) = f@)-1= 4-1, 
(9.27) 


问题 3 PTT AEA BAS RA A BLP IGA 
么 场景 ? 


难度 : detects ae 


分 析 与 解答 


一 般 来 说 ， 平 方 损 ita epp 
Sigmoid=ÈSoftmax 
多 分 类 的 场景。 + sey i 
依据 的 合理 原因 ， 还 需要 对 之 上 一 问 的 梯度 推导 熟悉 掌握 ， setae 
定 的 灵活 分 析 能 力 。 

为 何平 方 损失 函数 不 适合 最 后 一 层 含 有 Sigmoid 或 Softmax 激 活 函数 
el 可 以 回顾 上 一 问 推导 出 的 平方 误差 损失 函数 相对 于 输出 
层 的 导数 






5 sya) F(z), 

(9.28) 
Jo ROU CO ) 为 激活 函数 的 导数 。 当 激活 函数 为 Sigmoid 函 数 
时 ， 如 果 zD 的 绝对 值 较 大 ， 函 数 的 梯度 会 趋 于 饱和 ， 即 六 (2 中 有 的 绝对 
值 非常 小 ， 导 致 8 的 取 值 也 非常 小 ， 使 得 基于 梯度 的 学 习 速度 非常 组 
慢 。 当 使 用 交叉 糖 损失 函数 时 ， 相 对 于 输出 层 的 导数 (也 可 以 被 认为 是 
残 差 ) 为 

oh =a) 1, 

(9.29) 
此 时 的 导数 是 线性 的 ， 因 此 不 会 存在 学 习 速度 过 慢 的 问题 。 
Een 


神经 网 络 的 大 起 大 落 


回顾 历史 ， 今 天 遍地 开花 的 神经 网 络 ， 最近 才 由 出 来 的 新 鲜 玩意 ， 而 是 名 前 
pure EA i pela nents 于 20 世 纪 50 年 代 ， 那 时 候 还 电感 知 
机 。 域 中， 感知 机 也 被 认为 是 单 层 的 人 工 神经 网 络 ， 尽 管 结构 简单 ， 
nie Sra hs 图 9.11 是 神经 网 络 的 发 展 历史 。 


=) 
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MARRUA PL A OE, (ERS LAR kE WAZE ZE PER ZREN 
的 问题 。 因 为 它 只 能 学 习 线性 可 分 函数 ， 连 简单 的 异 或 (XOR 映 射 ) 等 线性 不 可 分 问题 


都 无能为力 。1969 年 ，Marvin “Minsky 出 版 的 Perceptrons》 是 一 个 历史 的 转折 点 ， 神 经 
网 络 第 一 次 被 打倒 。Minsky 在 书 中 提出 了 两 个 著名 的 观点 。 一 是 单 层 感 知 机 没 用 ， 我 们 

需要 用 多 层 感知 机 来 表示 简单 的 非 线性 函数 ， 比 如 XOR 映 射 ; 二 是 世界 上 没 人 有 办 法 将 

多 层 感 知 机 训练 得 足够 好 。 简 而 言 之 ， 要 解决 感知 机 【 单 层 神经 网 络 ) 学 习 线性 不 可 分 

须发 展 多 层 感知 机 ， 即 中 间 至 少 包含 一 个 隐 层 的 多 层 神经 网 络 ， 但 是 

用 在 多 层 神经 网 络 上 的 有 效 算 法 。 至 此 ， 学 术 权威 开始 质疑 神经 网 

络 ， 严 观 主义 开始 蔓延 。 


从 现在 看 ， 突 破 性 的 误差 反 向 传播 算法 ， 即 著名 的 反 向 传播 算法 ， 开 启 训练 多 层 神 
"“ 钥 是 "， 其 实 那个 时 候 已 经 存在 了 。 冰 冻 10 年 中 ， 尽 管 Paul “Werbos 在 1974 年 的 
博士 毕业 论文 中 深刻 分 析 了 将 反 同 传播 算法 运用 于 神经 网 络 方面 的 可 能 性 ， 成 为 美国 第 

位 提出 可 以 将 其 用 于 神经 网 络 的 研究 人 员 ， 但 是 他 没有 发 表 将 反 向 传播 算法 用 于 神经 
网 络 这 方面 的 研究 ， 因 为 这 个 团子 大 体 已 经 失去 解决 这 些 问题 的 信念 。 这 时 候 ，LeCun 
Yann (他 给 自己 取 了 个 中 文 名 叫 杨 立 昆 大 侠 上 场 了 ，20 世 纪 80 年 代 他 在 Hinton 实 验 室 
做 博士 后 期 间 ， 提 出 了 神经 网 络 的 反 向 传播 算法 原型 。1986 年 ，Rumelhart、Hinton 和 
Wiliams Learning representations by back-propagating pros， 反 向 传播 算 法 开 给 这 行 
JPR 


LeCun ”Yann 和 其 他 人 发 展 的 神经 网 络 正 开始 被 热 捧 的 时 候 ， 他 一 生 较劲 的 对 象 
Vapnik (贝尔 实验 室 的 同事 ) 出现 了 。20 世 纪 90 年 代 中 期 ， 由 Vapnik 等 人 发 明 的 支持 向 量 
机 诞生 ， 它 同样 解决 了 线性 不 可 分 问题 ， 但 是 对 比 神经 网 络 有 全 方位 优势 。 比 如 ， 高 
效 ， 可 以 快速 训练 ， 无 须 调 参 ， 没 有 梯度 消失 问题 ， 泛 化 性 能 好 ， 过 拟 合 风 险 小 。 支 持 
向 量 机 迅速 打败 多 层 神 经 网 络 成 为 主流 。 后 来 一 度 发 展 到 ， 只 要 你 的 论文 中 包含 神经 网 
络 相 关 的 字眼 ， 就 非常 容易 被 拒 稿 ， 学 术 界 那 时 对 神经 网 络 的 态度 可 想 而 知 。 神 经 网 络 
相 区 权 入 时 暗 。10 年 沉 认 中 ， 只 有 几 个 学 者 仍然 在 坚 竺 研究 ， 比 如 一 再 提 及 的 Hintnn 才 


2006 年 ，Hinton 在 《Sciencey 和 相关 期 刊 上 发 表 了 论文 ， 首 次 提出 了 “深度 置信 网 
络 "的 概念 。 与 传统 的 训练 方式 不 同 ， 深 度 信念 网 络 有 一 个 “ 预 训练 "的 过 程 ， 它 的 作用 是 
神经 网 络 权 值 找到 一 个 接近 最 优 解 的 值 ， 之 后 再 使 用 "微调 "技术 ， 使 用 反 向 传播 算法 或 
者 其 他 算法 作为 调 估 的 手段 ， 来 对 整个 网 络 进行 优化 训练 。 这 两 个 技术 的 运用 大 幅度 提 
升 了 模型 的 性 能 ， 而 且 减 层 神经 网 络 的 时 间 。 他 给 多 层 神经 网 络 相关 的 学 习 
方法 赋予 了 一 个 新 名 词 一 


后 面 的 故事 我 们 都 知道 了 ，2012 年 Hinton 的 团队 用 LeCun 赖 以 成 名 的 卷 积 神经 网 
络 ， 和 自己 在 深度 置信 网 络 的 调 优 技术 ， 碾 压 了 其 他 机 器 学 习 办 法 。 至 此 ， 深 度 学 习 开 
始 全 断 人 工 智能 的 新 闻 报 道 ，Hinton、LeCun 和 他 们 的 学 生 像 所 滚 明星 一 般 受到 追捧 ， 学 
者 们 的 态度 也 来 了 个 180 度 大 转变 ， 现 在 是 没有 和 深度 学 习 沾 上 边 的 文章 很 难 发 表 了 。 除 
了 名 ， 还 有 利 ，Google、Facebook 等 大 公司 不 但 把 学 术 界 人 物 挖 了 个 遍 ， 更 是 重金 收购 深 
度 学 习 大 佬 们 所 创建 的 公司 ， 举 了 几 十 年 冷 板 红 的 人 忽然 一 夜 之 间 身 价 权 涨 、 财 务 自 
He 现在 主导 Facebook AL 实验 室 的 LeCun Yann 则 不 断 呼吁 学 术 界 对 深度 学 习 保持 
冷静 。 



























04 神经 网 络 训练 技巧 


在 大 规模 神经 网 络 的 训 i 
题 ， 即 当 参 数 数目 过 于 庞大 而 Ont AWARE 
PUR, (LEMIRE ERREK, EIERE. RME” 
方法 有 很 多 ， 包 括 数据 集 增强 (Data Augmentation) 、 参 数 范 数 惩罚 / 正 
WE (Regularization) 、 模 型 集成 《Model Ensemble) 等 ; 其 中 Dropout 
是 模型 集成 方法 中 最 高 效 与 常用 技巧 同时 ， 深 度 神经 网 络 的 训练 中 

学 重 衰减 系数 、Dropout 比 例 等 ， 这 些 
参数 的 选择 会 显 车 影响 模型 最 终 的 训练 果 。 批 量 归 一 化 (Batch 
Normalization, BN) 方法 有 效 规避 了 这 些 复杂 参数 对 网 络 训练 产生 的 影 
响 ， 在 加 速 训练 收 妆 的 同 电 也 提升 了 网 络 的 泛 化 能 力 。 

















知识 点 
概率 与 统计 ， 深 度 学 习 


问题 1 神经 网 络 训练 时 是 否 可 以 将 全 部 参数 初始 化 为 
0? 


难度 : 难度: rtie 
分 析 与 解答 


考虑 全 连接 的 深度 神经 网 络 ， 同 一 层 中 的 任意 神经 元 都 是 同 构 的 ， 
它们 拥有 相同 的 输入 和 和 输出， 如果 再 将 参数 全 部 初始 化 为 同样 的 值 ， 那 


么 无 论 前 向 传播 还 是 反 向 传播 的 取 值 都 是 完全 相同 的 。 学 习 过 程 将 永远 
无 法 打破 这 种 对 称 性 ， 最 终 同 一 网 络 层 中 的 各 个 参数 仍然 是 相同 的 。 


因此 ， 我 们 需要 随机 地 初始 化 神经 RASANE: Eee 
性 。 简 单 来 说 ， 我 们 可 以 初始 化 参数 为 取 值 T Thasa 


布 ， 其 中 d 是 一 个 神经 元 接受 的 输入 维度 。 偏 置 可 以 被 简单 地 设 为 0， 并 
不 会 导致 参数 对 称 的 问题 。 















问题 2 为 什么 Dropout 可 以 抑制 过 拟 合 ? 它 的 工作 原理 
和 实现 ? 


WEE: dokker 
分 析 与 解答 


Dropout 是 指 在 深度 网 络 的 训练 中 ， 以 一 定 的 概率 随机 地 “临时 丢 
弃 " 一 部 分 神经 元 节点 。 有 具体 来 讲 ，Dropout 作 用 于 每 份 小 批量 训练 数 
据 ， 由 于 其 随机 丢弃 部 分 神经 元 的 机 制 ， 相 当 于 每 次 迭代 都 在 训练 不 同 
结构 的 神经 网 络 。 类 比 于 Bagging 方 法 ，Dropout 可 被 认为 是 一 种 实用 的 
大 规模 深度 神经 网 络 的 模型 集成 算法 。 这 是 由 于 传统 意义 上 的 Bagging 
涉及 多 个 模型 的 同时 训练 与 测试 评估 ， 当 网 络 与 参数 规模 庞大 时 ， 这 种 
集成 方式 需要 消耗 大 量 的 运算 时 间 与 空间 。Dropout 在 小 批量 级 别 上 的 
操作 ， 提 供 了 一 种 轻 量 级 的 Bagging 集 成 近似 ， 能 够 实现 指数 级 数量 神 
经 网 络 的 训练 与 评测 。 


Dropout 的 具体 实现 中 ， 要 求 某 个 神经 元 节点 激活 值 以 一 定 的 概率 p 
被 丢弃 "， 即 该 神经 元 暂时 停止 工作 ， 如 图 9.12 所 示 。 因 此 ， 对 于 包 
会 N 个 神经 元 节点 的 网 络 ， 在 Dropout 的 作用 下 可 看 作为 2* 个 模型 的 集 
成 。 这 2 个 模型 可 认为 是 原始 网 络 的 子 网 络 ， 它 们 共享 部 分 权 值 ，# 
有 具有 相同 的 网 络 层 数 ， 而 模型 整体 的 参数 数目 不 变 ， 这 就 大 2 

算 。 对 于 任意 神经 元 ， 每 次 训练 中 都 与 一 组 随机 挑选 的 不 同 的 神经 
合共 同 进行 优化 ， 这 个 过 程 会 减弱 全 体 神 经 元 之 间 的 联合 适应 性 ， 减 少 























过 拟 合 的 风险 ， 增 强 泛 化 能 力 。 


在 神经 网 络 中 应 用 Dropout 包 括 训练 和 预测 两 个 阶段 。 在 训练 阶段 

中 ， 每 个 神经 元 节点 需要 增加 一 个 概率 系数 ， 如 图 9.13 所 示 。 训 练 阶段 

又 分 为 前 向 传播 和 反 向 传播 两 个 步骤 。 原 始 网 络 对 应 的 前 向 传播 公式 为 
aft WO 二 ED 


(9.30) 


yE = feH), 


(9.31) 





(a) pansis 19) BM Dropout wust 


图 9.12 Dropou 模 块 示意图 





(a) stm (>) Dropouts 


图 9.13 标准 网 络 和 Dropou 网 络 的 对 比 
应 用 Dropout 之 后 ， 前 向 传播 公式 变 为 





r”’~Bernoulli(p), 
(9.32) 
JO = 1 Hy, 
(9.33) 
pop 4 9, 
(9.34) 
yl = ee) 
(9.35) 


上 面 的 Bernoulli 函 数 的 作用 是 以 概率 系数 p 随 机 生成 一 个 取 值 为 0 或 1 的 
向 量 ， 代 表 每 个 神经 元 是 否 需 要 被 丢弃 。 如 果 取 值 为 0， 则 该 神经 元 将 
不 会 计算 梯度 或 参与 后 面 的 误差 传播 。 

测试 阶段 是 前 向 传播 的 过 程 。 在 前 向 传播 的 计算 时 ， 每 个 神经 元 的 
参数 要 预先 乘 以 概率 系数 p， 以 恢复 在 训练 中 该 神经 元 只 有 p 的 概率 被 用 
于 整个 神经 网 络 的 前 向 传播 计算 。 


更 多 详细 内 容 及 实验 性 能 对 比 请 查看 参考 文献 19]。 


问题 3 批量 归 一 化 的 基本 动机 与 原理 是 什么 ? 在 卷 积 神 
经 网 络 中 如 何 使 用 ? 


难度 : dodo rr 


分 析 与 解答 


神经 网 络 训练 过 程 的 本 质 是 学 习 数 据 分 布 ， 
据 的 分 布 不 同 将 大 大 降低 网 络 的 泛 化 能 力 ， 因 此 我 信 
对 所 有 输入 数据 进行 归 一 化 处 理 。 


然而 随 着 网 络 训练 的 进行 ， 每 个 隐 层 的 参数 变化 使 得 后 一 层 的 输入 
发 生变 化 ， 从 而 每 一 批 训练 数据 的 分 布 也 随 之 改变 ， 致 使 网 络 在 每 次 迭 
代 中 都 需要 拟 合 不 同 的 数据 分 布 ， 增 大 训练 的 复杂 度 以 及 过 拟 合 的 风 
险 。 






数据 与 测试 数 
要 在 训练 开始 前 








批量 归 一 化 方法 是 针对 每 一 批 数据 ， 在 网 络 的 每 一 层 输入 之 前 增加 
归 一 化 处 理 均值 为 0， 标 准 差 为 1) ， 将 所 有 批 数据 强制 在 统一 的 数据 
分 布下 ， 即 对 该 层 的 任意 一 个 神经 元 (假设 为 第 k 维 ) ROR AMR aE 





(9.36) 


其 中 x 为 该 层 第 k 个 神经 元 的 原始 输入 数据 ，E[x 扩 为 这 一 批 输入 数据 
在 第 k 个 神经 元 的 均值 ，yrex*] 为 这 一 批 数 据 在 第 k 个 神经 元 的 标准 差 。 


批量 归 一 化 可 以 看 作 在 每 一 层 输入 和 上 一 层 输出 之 间 加 入 了 一 个 新 
的 计算 层 ， 对 数据 的 分 布 进行 额外 的 约束 ， 从 而 增强 模型 的 泛 化 能 力 。 
但 是 批量 归 一 化 同时 也 降低 了 模型 的 拟 合 能 力 ， 归 一 化 之 后 的 输入 分 布 
被 强制 为 0 均值 和 1 标准 差 。 以 Sigmoid 激 活 函数 为 例 ， 批 量 归 一 化 之 后 
数据 整体 处 于 函数 的 非 饱 和 区 域 ， 只 包含 线性 变换 ， 破 坏 了 之 前 学 习 到 
的 特征 分 布 。 为 了 恢复 原始 数据 分 布 ， 具 体 实现 中 引入 了 变换 重 构 以 及 
可 学 习 参数 y 和 p: 





yO =P 4 B®, 
(9.37) 


其 中 yV 和 pW 分 别 为 输入 数据 分 布 的 方差 和 偏差 。 对 于 一 般 的 网 络 ， 不 


采用 批量 归 一 化 操作 时 ， ee one aa ae 
重 Pieu g ana Bids 








(9.38) 
Aetius 
i ya) 
(9.39) 
3-H 
Voite, 
(9.40) 
D © 73, + B= BN, a(x), 
(9.41) 


批量 归 一 化 在 卷 积 神经 网 络 中 应 用 时 ， 需 要 注意 卷 积 神经 网 络 的 参 
数 共享 机 制 。 每 一 个 卷 积 核 的 参数 在 不 同位 置 的 神经 元 当中 是 共享 的 ， 
因此 也 应 该 被 一 起 归 一 化 。 具 体 实现 中 ， 假 设 网 络 训练 中 每 一 批 包 含 b 
个 样本 ， 由 一 个 卷 积 核 生成 的 特征 图 的 宽 高 分 别 为 vy 和 h， 则 每 个 特征 图 
所 对 应 的 全 部 神经 元 个 数 为 bxwxh; 利用 这 些 神经 元 对 应 的 所 有 输入 数 
据 ， 我 们 根据 一 习 的 参数 y 和 对 每 个 输入 数据 进行 批量 归 一 化 操 
作 。 如 果 有 f 个 卷 积 核 ， 就 对 应 /个 特征 图 和 /组 不 同 的 y 和 参数 。 








05 深度 卷 积 神经 网 络 


场景 描述 


Apih (Convolutional Neural Networks, CNN) 也 是 一 种 前 
馈 神经 网 络 ， 其 特点 是 每 层 的 神经 元 节点 只 响应 前 一 层 局 部 区 域 范围 内 
的 神经 元 〈 全 连接 网 络 中 每 个 神经 元 节点 响应 前 一 层 的 全 部 节点 ) 。 一 
个 深度 卷 积 神经 网 络 模型 通常 由 若干 卷 积 层 县 加 若干 全 连接 层 组 成 ， 中 
间 也 包含 各 种 非 线性 操作 以 及 池 化 操作 。 卷 积 神经 网 络 同样 可 以 使 用 反 
向 传播 算法 进行 训练 ， 相 较 于 其 他 网 络 模型 ， 卷 积 操作 的 参数 共享 特性 
ed 参数 数目 大 大 缩减 ， 提 高 了 模型 的 训练 效率 以 及 可 扩展 
性 。 主要 用 于 处 理 类 网 格 结构 的 数据 ， 因 此 对 于 时 间 序 列 
DT 显著 优势 。 


图 9.14 是 卷 积 神经 网 络 的 一 个 经 典 结构 示意 图 。 这 是 LeCun Yann 在 
1998 年 提出 的 卷 积 神经 网 络 结构 ， 输 入 在 经 历 几 次 卷 积 和 池 化 层 的 重复 
ae 接 入 几 个 全 连通 层 并 输出 预测 结果 ， 已 成 功 应 用 于 手写 体 识 
别 任务 。 
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图 9.14 Lenette 


知识 点 


FARE, REF, AY 









本 质 特性 包括 稀 玖 交互 和 参数 共享 ， 
及 其 作用 。 


问题 1 卷 积 操 人 
具体 解释 这 两 种 


难度 : ederre yr 


分 析 与 解答 


m ffi. (Sparse Interaction) 


在 传统 神经 网 络 中 ， 网 络 层 之 间 输入 与 输出 的 连接 关系 可 以 由 一 个 
权 值 参数 矩阵 来 表示 ， 其 中 每 个 单独 的 参数 值 都 表示 了 前 后 层 某 两 个 神 
经 元 节点 之 间 的 交互 于 全 连接 网 络 ， 任 意 一 对 输入 与 输出 神经 元 之 
间 都 产生 交互 ， 形 成 稠密 的 连接 结构 ， 如 图 9.15 所 示 ， 神 经 元 sit 
的 所 有 神经 元 % 均 有 连接 。 










图 9.15 “全 连接 





示意 图 






互 ) ， 我 们 称 这 种 特性 为 稀 玻 交互 ， 如 图 9.16 所 示 。 可 以 看 到 与 和 
连接 竺 构 不 同 ， 神 经 元 6 仅 与 前 一 肢 中 的 x_i、x 和 相连 。 具 体 来 
讲 ， 假 设 网 络 中 相信 两 层 分 别 具 有 中 个 输入 和 n 个 输出 ， 全 连接 网 络 中 
的 权 值 参数 矩阵 将 包 合 mxn 个 参数 。 对 于 条 下 交互 的 关 积 网 络 ， 如 果 限 
定 每 个 输 也 与 前 一 层 神经 元 的 连接 数 为 k， 那 么 该 层 的 参数 总 量 为 xn。 





在 实际 应 用 中 ， 一 般 k 值 远 小 于 m 就 可 以 取得 较为 可 观 的 效果 ;而 此 时 优 
化 过 程 的 时 间 复 杂 度 将 会 减 小 几 个 数量 级 ， 过 拟 合 的 情况 也 得 到 了 较 好 


RRR 


图 9.16 着 积 层 结 构 示意 图 


稀疏 交互 的 物理 意义 是 ， 通 常 图 像 、 文 本 、 语 音 等 现实 世界 中 的 数 
据 都 具有 局 部 的 特征 结构 ， 我 们 可 以 先 学 习 局 部 的 特征 ， 再 将 局 部 的 特 
征 组 合 起 来 形成 更 复杂 和 抽象 的 特征 。 以 人 脸 识别 为 例 ， 最 底层 的 神经 
元 可 以 检测 出 各 个 角度 的 边缘 特征 〈 见 图 9.17 Ca) ) : 中间 层 的 神 

经 元 可 以 将 边缘 组 合 起 来 得 到 眼睛 、 觉 子 、 噶 巴 等 复杂 ( 见 图 
9.17 b) ) ; 最 后 ， 位 于 上 层 的 神经 元 可 以 根据 各 个 器 官 的 组 合 检测 
出 人 脸 的 特征 〔 见 图 917 Ce) ) 。 











图 947 人 用 识别 中 不 同 郑 积 层 | 
于 参数 共享 (Parameter Sharing) 


参数 共享 是 指 在 同一 个 模型 的 不 同 模块 中 使 用 相同 的 参数 ， 它 是 卷 
运算 的 固有 连接 网 络 中 ， 计 算 每 层 的 输出 时 ， 权 值 参数 矩阵 

次 ; 而 在 卷 积 神经 网 络 中 ， 卷 积 
于 每 一 次 局 部 输入 的 特定 位 置 上 。 根 据 参数 共 
享 | 需 组 参数 集合 ， 而 不 需要 针对 每 个 位 置 的 每 
TOMAR IEC io 大 降低 了 模型 的 存储 需求 。 









E EL Ne a teh are  eg he 假如 图 像 中 有 
只 中 ] 都 应 该 将 它 识别 为 
等 变 的 。 特 别 
f 门 称 f (x) 关 于 变换 g 具 有 
Ae STRATA (在 整数 坐标 













上 的 灰 度 值 函数 ) ， =g()。 例 如 ， 我 们 把 猫 的 图 像 向 
右 移 动 ! 像 素 ， 满 根据 其 性 
质 ， 我 们 很 容易 。 也 就 是 说 ， 在 猫 的 图 片上 先 


Ig FU): 人 
进行 卷 积 ， th Cesta retiree E fy 
卷 积 操作 的 输出 结果 是 相等 的 。 


问题 2 常用 的 池 化 操作 有 哪些 ? 池 化 的 作用 是 什么 ? 


难度 : teksty 


分 析 与 解答 





常用 的 池 化 操作 主要 针对 非 重合 区 
pooling) 、 最 大 池 化 (max pooling) 等 。 
$ 


征 数值 现 ， 能 够 抑制 由 于 邻 
背景 的 保留 效果 更 好 。 最 大 池 化 则 通过 取 邻 域内 特征 
H, 参数 误差 造成 估计 均值 偏 移 的 现象 ， 特 
点 是 更 好 地 提取 纹理 化 操作 的 本 质 是 | : 降 采 样 。 例 如 ， 我 们 可 以 
利用 最 大 池 化 将 4x4 的 矩 | 为 2x2 的 矩阵 ， 如 图 9.18 所 示 。 PEN 
池 化 操作 窗口 大 小 为 2*2， 步 长 为 2。 每 次 在 2x2 大 小 的 窗口 | 
算 ， 均 值 池 化 是 求 窗口 中 元 素 的 均值 ， RA ERAK 
值 ， 然 后 将 窗口 向 右 或 向 下 平移 两 格 ， 继 续 操作 。 


， 包 括 均值 池 化 (mean 
+ 中 均值 池 化 通过 对 邻 域内 特 
大 小 受 限 造成 估计 值 方差 增 大 




















加 
图 918 池 化 操作 示意 图 


此 外 ， 特 殊 的 池 化 方式 还 包括 对 相 邻 重 委 区 域 的 池 化 以 及 空间 金字 
He. MERAK 化 ， 顾 名 思 义 ， 是 采用 比 窗口 宽度 更 小 的 步 
长 ， 使 得 窗口 在 每 次 滑动 时 存在 重 又 的 区 域 。 空 间 金 字 塔 池 化 主要 考虑 
了 多 尺度 信息 的 描述 ， 例 如 同时 计算 1x1、2x2、4x4 的 矩阵 的 池 化 并 将 
结果 拼接 在 一 起 作为 下 一 网 络 层 的 输入 。 


池 化 操作 除了 能 显著 降低 参数 量 外 ， 还 能 够 保持 对 平移 、 仲 缩 、 旋 
转 操作 的 不 变性 。 平 移 不 变性 是 指 输出 结果 对 输入 的 小 量 平移 基本 保持 
不 变 。 例 如 ， 输 入 为 5,3) , 最 大 池 化 将 会 取 5， 如 果 将 输入 右 移 一 
位 得 到 (0,1,5) ， 输 出 的 结 果 仍 将 为 5。 对 伸缩 的 不 变性 〈 一 般 称 为 尺 
度 不 变性 ) 亲 以 这 样 理解 ， 如 果 原 先 神经 元 在 最 大 池 化 操作 之 后 输出 
5， 那 么 在 经 过 伸缩 (尺度 变换 ) 之 后 ， 最 大 池 化 操作 在 该 神经 元 上 很 
G 受 的 是 邻 域 输入 的 最 大 值 ， 而 并 
以 参照 图 9.19。 图 中 的 神经 网 络 由 3 
个 学 得 的 过 滤器 和 "个 最 大 池 化 层 组 成。 3 个 过 滤器 分 别 学 习 到 不 同 
旋转 方向 当 输 入 中 出 现 *5" 时 ， T 都 会 
有 一 个 对 应 的 过 滤器 与 之 配 并 在 对 应 的 o 
终 ， 无 论 哪个 神经 元 获得 了 激活 ， 在 经 过 最 大 池 化 操作 之 后 输出 都 会 具 
有 大 的 激活 。 
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图 9.19 池 化 操作 的 旋转 不 变性 





问题 3 卷 积 神经 网 络 如 何 用 于 文本 分 类 任务 ? 


WEE: dokker 
分 析 与 解答 


卷 积 神经 网 络 的 核心 思想 
巨大 的 成 功 ， 后 来 在 文本 领域 也 得 到 了 广泛 | 
部 特征 就 是 由 若干 单词 组 成 的 滑动 窗口， 类 似 于 N-gram。 卷 积 神经 网 络 
的 优势 在 于 能 够 自动 地 对 N-gram 特 征 进行 组 合 和 筛选 ， 获 得 不 同 抽象 层 
次 的 语义 信息 。 由 于 在 每 次 卷 积 中 采用 了 共享 权重 的 机 制 ， 因 此 它 的 训 
练 速度 相对 较 快 ， 在 实际 的 文本 分 类 任务 中 取得 了 非常 不 错 的 效果 。 


图 9.20 是 一 个 用 卷 积 神经 网 络 模型 进行 文本 表示 ， 并 最 终 用 于 文本 
分 类 的 网 络 结构 21。 


是 捕捉 局 部 特征 ， 起 初 在 图 像 领 域 取 得 了 
应 用 。 对 于 文本 来 说 ， 局 


























































































































wR en nie wen 


图 920 卷 积 网 络 在 文本 分 类 任务 上 的 应 用 


CL) 输入 层 是 一 个 NxK 的 和 矩阵， 其 中 入 为 文章 所 对 应 的 单 
K 是 每 个 词 对 应 的 表示 向 量 的 维度 。 每 个 词 的 K 维 向 量 可 

料 库 中 训练 好 的 ， TUE E AP 
arua 二 方面 ， 其 


当前 网 
i ‘i, 图 中 的 输入 层 实际 两 个 通道 
其 中 一 个 用 预先 训练 好 的 词 嵌 入 表 
达 ， SIL CEES IRE 另外 一 个 也 由 同样 的 方式 初始 
化 ， 但 是 会 作为 参数 ， 随 着 网 络 的 训练 过 程 发 生 改 变 。 














(2) 第 二 层 为 卷 积 层 。 在 输入 的 NxK 维 矩阵 上 ， 我 们 定义 不 同 大 
小 的 滑动 窗口 进行 卷 积 操 





€, = SO"? Xis +D), 
(9.42) 


其 中 xiinn- 1 代表 由 输入 矩阵 的 第 行 到 第 +h 行 所 组 成 的 一 个 大 小 

> ARES. 假设 为 3， 

， 并 得 到 N-2 个 结果 ， 再 将 这 N-2 个 
量 。 每 一 次 卷 积 操作 相当 于 一 次 特征 

同 的 滑动 窗口 ， 就 可 以 提取 出 不 同 的 特征 向 









向 量 的 提取 ， 通 过 定义 不 
量 ， 构 成 卷 基层 的 输出 。 


(3) 第 三 层 为 池 化 层 ， 比 如 图 中 所 示 的 网 络 采用 了 1-Max 池 化 ， 即 
为 从 每 个 滑动 窗口 产生 的 特征 向 量 中 筛选 出 一 个 最 大 的 特征 ， 然 后 将 这 
些 特征 拼接 起 来 构成 向 量 表 示 。 也 可 以 选用 K-Max 池 化 〈 选 出 每 个 特征 


RAK MAMIE). RAFE Cf 向 量 中 的 每 一 维 取 平 
均 ) 等 ， 达 到 的 效果 都 是 将 不 同 长 度 的 句子 通过 池 化 得 到 一 个 定 长 的 向 
量 表示 。 

(4) 得 到 文本 的 向 量 表示 之 后 ， 后 面 的 网 络 结构 就 和 具体 的 任务 


相关 了 。 本 例 中 展示 的 是 一 个 文本 分 类 的 场景 ， 因 此 最 后 接 入 了 一 个 全 
连接 层 ， 并 使 用 Softmax 激 活 函数 输出 每 个 类 别 的 概率 。 





06 深度 残 差 网 络 


随 着 大 数据 时 代 的 到 来 ， 数 据 规模 日 益 增 加 ， 这 使 得 我 们 有 可 能 训 
练 更 大 容量 的 模型 ， 不 断 地 提升 模型 的 表示 能 力 和 精度 。 深 度 神经 网 络 
的 层 数 决定 了 模型 的 容量 ， 然 而 随 着 神经 网 络 层 数 的 加 深 ， 优 化 函数 越 
来 越 陷 入 局 部 最 优 和解。 同时 ， 随 着 网 络 层 数 的 增加 ， 梯 度 消失 的 问题 更 
加 严重 ， 这 是 因为 梯度 在 反 向 传播 时 会 逐渐 衰减 。 特 别 是 利用 Sigmoid 

十， 使 得 远离 输出 层 〈 即 接近 输入 层 ) 的 网 络 层 不 能 够 和 
效 的 学 习 ， 影 响 了 模型 泛 化 的 效果 。 为 了 改善 这 一 问 
的 研究 员 们 在 过 去 十 几 年 间 尝 试 了 # k, 
正则 化 、 设 计 特殊 的 网 络 : th, 
Network, ResNet) 是 一 种 非 ‘iene Hace, PRIJUR T a 
以 有 效 训练 的 深度 神经 ResNet 在 ImageNet 竞 赛 和 AlphaGo 
Zero 的 应 用 中 都 取得 了 非 肖 果 。 图 9.21 展 示 了 ImageNet 况 赛 在 
2010 年 一 2015 年 的 比赛 时 取得 冠军 的 模型 层 数 演化 ， 在 2015 年 时 ， 利 用 
ResNet 训 练 的 模型 已 达到 152 层 ， 并 且 相 较 往年 的 模型 取得 了 很 大 的 精 
See 如 今 ， 我 们 可 以 利用 深度 残 差 网 络 训练 一 个 拥有 成 百 上 千 网 络 
层 的 模型 。 


























ISVRCIS ILSVRC'4 ILSVRC'I4 ILSVRCI3 ILSVRCI2 ILSVRC MLSVRCI0 
ResNet  GoogleNet  VGG AlexNet 


分 类 任务 的 Top 5 BRK (%) 
图 9.21 ImageNet 竞 赛 历年 冠军 采用 的 模型 和 对 应 的 效果 
知识 点 
线性 代数 ， 深 度 学 习 


问题 “ResNet 的 提出 背景 和 核心 理论 是 什么 ? 


难度 : 克 克 次 交 六 


分 析 与 解答 


ResNet 的 提出 背景 是 解决 或 缓解 深层 的 神经 网 络 训练 中 的 梯度 消失 
问题 。 假 设 有 一 个 L 层 的 深度 神经 网 络 ， 如 果 我 们 在 上 面 加 入 一 层 ， 直 
观 来 讲 得 到 的 L+1 层 深度 神经 网 络 的 效果 应 该 至 少 不 会 比 L 层 的 差 。 因 为 
我 们 简单 地 设 最 后 一 层 为 前 一 层 的 拷贝 《用 一 个 恒 等 映 射 即 可 实现 ) ， 
并 且 其 他 层 维持 原来 的 参数 即 可 。 然 而 在 进行 反 向 传播 时 ， 我 们 很 难 找 


到 这 种 形式 的 解 。 实 际 上 ， 通 过 实验 发 现 ， 层 数 更 深 的 神经 网 络 反而 : 
具有 更 大 的 训练 误差 。 在 CIFAR-10 数 据 集 上 的 一 个 结果 如 图 9.22 所 示 
56 层 的 网 络 反 而 比 20 层 的 网 络 训练 误差 更 大 ， 这 很 大 程度 上 归结 于 深度 
神经 网 络 的 梯度 消失 问题 P。 
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图 9.22 20 层 网 络 和 56 层 网 络 在 CIFAR-10 数 据 集 上 的 训练 误差 和 测试 误差 


为 了 解释 梯度 消失 问题 是 如 何 产生 的 。 回 顾 第 3 节 推 导出 的 误差 传 
播 公式 





( Shun so) ree) 
所 

(9.43) 
将 式 (9.31) 再 展开 一 层 ， 可 以 得 到 


a 





(granre 





(9.44) 


TURER EET LG RB HOM WORA E, EPNER 
RER. MEAN IBL IE GUA 传播 到 除 输入 以 外 的 第 一 个 隐 含 层 
GEO) 的 时 候 ， 会 涉及 非常 多 的 参数 和 导数 的 连 乘 ， 这 时 误差 很 容 
易 产生 消失 或 者 膨胀 ， 影 响 对 该 层 参数 的 正确 学 习 。 因 此 深度 神经 网 络 
的 拟 合 和 泛 化 能 力 较 差 ， 有 时 甚至 不 如 浅 层 的 神经 网 络 模型 精度 更 高 。 


ResNet 通 过 调整 网 络 结构 来 解决 上 述 问 题 。 首 先 考虑 两 层 神经 网 络 
的 简单 僻 加 ( 见 图 9.23 Ca) ) ， 这 时 输入 x 经 过 两 个 网 络 层 的 变换 得 











到 H(x)， 激 活 函数 采用 ReLU。 反 向 传播 时 ， 梯 度 将 涉及 两 层 参数 的 交 
叉 相 乘 ， 可 能 会 在 离 输入 近 的 网 络 层 中 产生 梯度 消失 的 现象 。ResNet 把 
网 络 结构 调 网 络 层 较 难 训练 ， 那 么 我 们 可 以 
将 它 短 接 到 更 靠近 输出 的 层 ， 如 图 9.23 (b) 所 示 。 输 入 x 经 过 两 个 神 
网 络 的 变换 得 到 F(x)， 同 时 也 短 接 到 两 层 之 后 ， 最 后 这 个 包含 两 层 的 神 
经 网 络 模块 输出 H(x)=F(x)+x。 这 样 一 来 ，F(X) 被 设计 为 只 需要 拟 合 输 
入 x 与 目标 输出 用 (x) 的 残 差 所 x) -x， 残 差 网 络 的 名 称 也 因此 而 来 。 如 果 
某 一 层 的 输出 已 经 较 好 的 拟 合 了 期 望 结 果 ， 那 么 多 加 入 一 层 不 会 使 得 模 
型 变 得 更 差 ， 因 为 该 层 的 输出 将 直接 被 短 接 到 两 层 之 后 ， 相 当 于 直接 学 

一 个 恒 等 映 射 ， 而 跳 过 的 两 层 只 需要 拟 合 上 层 输出 和 目标 之 间 的 残 
差 即 可 。 
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(a) 标准 网 络 结构 (b) ResNet 网 络 结构 
图 9.23 ResNet 结 构 示意 图 


BeN TOATE ENA EREIN, 使 得 训练 更 深 的 网 
ieee 如 图 9.24 所 示 。 图 9.24 Ca) rae ee 神经 网 络 的 结 

， 可 以 看 到 随 着 模型 结构 的 加 深 训练 而 图 9.24 (b) 
Brenan LEA iR, eee 差 逐 渐 降低 ， 并 且 
优 于 相同 层 数 的 传统 的 神经 | 




















图 9.24 ResNet 网 络 与 传统 网 络 的 效果 对 比 


Geoffrey Hinton 的 传奇 人 生 


深度 学 习 泰斗 Geoffrey Hinton 的 名 字 在 当今 的 人 工 智能 研究 界 可 谓 是 如 雷 贯 耳 ， 他 
曾 发 明了 玻 尔 兹 受 机 ， 也 首先 将 反 向 传播 应 用 于 多 层 神经 网 络 。 不 仅 如 此 ， 他 还 有 Yan 
LeCun 和 Iya Sutskever 等 大 牛 级 的 学 生 。 


Hinton 教授 出 生 于 英国 的 温 布尔 登 。 他 的 母亲 是 一 位 数学 老师 ， 父 亲 是 一 个 专注 里 
壳 虫 研究 的 昆虫 学 家 。*“ 国 民生 产 总 值 * 这 个 术语 ， 是 他 的 男 另 、 经 济 学 家 Colin Clark 发 明 
的 。 他 的 高 曾祖 父 是 19 世纪 的 逻辑 学 家 George Boole 一 一 现代 计算 科学 的 基础 布尔 代数 
的 发 明 人 。 后 来 ， 他 们 家 撒 到 了 布 里 斯 托 ，Hinton 进 入 了 克 里 夫 顿 学 院 ， 这 所 学 校 在 他 口 
中 是 个 “二 流 公立 学 校 *。 正 是 在 这 里 ， 他 结识 的 一 个 朋友 给 他 讲 了 全 息 图 ， 讲 了 人 脑 如 何 
存储 记忆 ， 为 他 打开 了 AI 的 神奇 大 门 。 


高 中 毕业 后 ，Hinton 去 剑桥 大 学 学 习 物 理学 和 化 学 ， 但 只 读 了 1 个 月 就 退学 了 。 
年 后 ， 他 又 重新 申请 剑桥 大 学 并 转学 建筑 ， 结 果 又 退学 了 ， 这 次 他 只 坚持 了 1 天 。 然 后 
转向 物理 学 和 全 理学， 但 是 后 来 发 现 物理 学 中 的 数学 太 难 了 ， 因 此 转学 哲学 ， 花 1 年 修 
完了 2 年 的 课程 。Hinton 说 :“ 这 一 年 大 有 神 益 ， 因 为 我 对 芹 学 产生 了 强烈 的 抗体 ,我 想 
要 理解 人 类 意识 的 工作 原理 。* 为 此 ， 他 转向 了 心理 学 ， 仅 仅 为 了 确定 “心理 学 家 对 人 类 意 
识 也 不 明 所 以 "。 在 1973 年 前 往 爱丁堡 大 学 研究 生 院 学 习 人 工 智能 之 前 ， 他 做 了 1 年 的 
木匠 。 他 在 爱丁堡 大 学 的 导师 是 “Christopher LonguerHiggins， 其 学 生 包 括 多 伦 多 大 学 化 
学 家 、 诺 贝尔 奖 得 主 John Polanyi 和 理论 物理 学 家 Peter Higgs- 


即使 当时 Hinton 已 经 确信 不 被 看 好 的 神经 网 络 才 是 正确 之 路 ， 但 他 的 导师 却 在 屠 
时 刚 改 为 支持 人 工 智能 传统 论点 。Hinton 说 :“ 我 的 研究 生生 注 充 满 了 暴风 骤 两 ， 每 周 我 
和 导师 都 会 有 一 次 争吵 。 我 一 直 在 做 着 交易 ， 我 会 说 ， 好 吧 ， 让 我 再 若 6 个 月 时 间 的 神 
我 会 证 明基 有 站 性 的 总 RART RL RIVER ROT BAR 6 


PRIA MER IER 
是 以 某 种 方式 工作 的 ， 但 绝对 不 是 
























以 某 种 规则 编程 的 方式 工作 的 。” 


数 年 来 ，Hinton 的 工作 不 仅 相对 来 说 令 人 费解 ， 而 且 在 一 场 长 达 10 年 的 计算 机 科 
学 学 术 之 争 中 处 于 失利 的 一 方 。Hinton “说 ， 他 的 神经 网 被 获得 了 更 多 资助 的 人 工 智能 传 
ù SKANDES Cweak-minded nonsense) ”, SERIEI 

拒 收 有 关 神 经 网 络 的 论文 。 


但 是 在 过 去 的 5 年 左右 的 时 间 里 ，Hinton 的 学 生 取得 了 一 系列 的 惊人 突破 ， 神 经 网 
络 变 得 十 分 流行 ，Hinton 也 被 尊称 为 计算 新 时 代 的 宗师 (guru of a new era of 
computing) 。 神 经 网 络 已 经 在 手机 中 为 绝 大 多 数 语音 识别 软件 提供 支持 ， 其 还 能 识别 不 
同 种 类 的 狗 的 图 片 ， 精 确 度 几乎 可 以 和 人 关 媳 美 - 


“RUIN WAL BAMA. "Irvine 这 么 评价 Hinton 教授 
BAERE, EN WEE IRIE AERAR, MIAR 
功 .….. 现 在 ， 这 些 已 经 被 谈论 年 的 事情 终于 发 生 了 ， 我 觉得 这 对 他 来 说 是 一 个 
IERI MERCER T EENEN, MWENS. BENTE AZN 




















第 10 章 ”循环 神经 网 络 


作为 生物 体 ， 我 们 的 视觉 和 听觉 不 断 地 获得 带 有 序列 的 声音 和 图 像 
信号 ， 并 交 由 大 脑 理 解 ， 同 时 我 们 在 说 话 、 写 作 、 驾 驶 等 过 程 中 不 断 地 
输出 序列 的 声音 、 文 字 、 操 作 等 信号 。 在 互联 网 公司 日 常 要 处 理 的 数据 
中 ， 也 有 很 多 是 以 序列 形式 存在 的 ， 例 如 文本 、 语 音 、 视 频 、 点 击 流 等 
ead 此 ， 如 何 更 好 地 对 序列 数据 进行 建 模 ， 一 向 是 人 工 智能 领域 的 研 


循环 神经 网 络 (Recurrent Neural Network, RNN) 是 用 来 建 模 序 列 
化 数据 的 一 种 主流 深度 学 习 模型 。 我 们 知道 ， 传 统 的 前 馈 神经 网 络 一 般 
的 输入 都 是 一 个 定 长 的 向 量 ， 无 法 处 理 变 长 的 序列 信息 ， 即 使 通 : a 
方法 把 序列 处 理 成 定 长 的 向 量 ， 模 型 也 很 难 捕 提 序列 中 的 长 距离 依赖 关 
系 。RNN 则 通过 将 神 串 行 起 来 处 理 序列 化 的 数据 。 由 于 每 个 神经 元 
能 用 它 的 内 部 变量 保存 之 前 输入 的 序列 信息 ， 因 此 整个 序列 被 浓缩 成 抽 
象 的 表示 ， 并 可 以 据 此 进行 分 类 或 生成 新 的 序列 。 近 年 来 ， 得 益 于 计算 
能 力 的 大 幅 提 升 和 模型 的 改进 ，RNN 在 很 多 领域 取得 了 突破 性 的 进展 
机 器 翻译 、 序 列 标注 、 图 像 描 述 、 推 荐 系统 、 智 能 聊天 机 器 人 、 自 
动作 词 作曲 等 。 





















01 循环 神经 网 络 和 卷 积 神经 网 络 


用 传统 方法 进行 文本 分 类 任务 时 ， 通 常 将 一 篇 文章 所 对 应 的 TF-IDF 
向 量 作为 输入 ， 其 中 TF-IDF 向 量 的 维度 是 词汇 表 的 大 小 。 使 用 前 馈 神 经 
网 络 ， 如 卷 积 神经 网 络 对 文本 数据 建 模 时 ， 一 般 会 如 何 操 作 ? 使 用 循环 
神经 网 络 对 文本 这 种 带 有 序列 信息 的 数据 进行 建 模 时 ， 相 比 卷 积 神经 网 
络 又 会 有 什么 不 同 ? 








知识 点 
循环 神经 网 络 ， 前 馈 神 经 网 络 


问题 处 理 文本 数据 时 ， 循 环 神经 网 络 与 前 馈 神 经 网 络 
相 比 有 什么 特点 





MERE: detected te 


分 析 与 解答 


刚才 提 到 ， 传 统 文本 处 理 任务 的 方法 中 一 般 将 TF-IDF 向 量 作为 特征 





输入 。 显 而 易 见 ， 这 样 的 表示 实际 上 丢失 了 输入 的 文本 序列 中 每 个 单词 
的 顺 神经 网 络 的 建 模 过 程 中 ， 一 般 的 前 馈 神经 网 络 ， 如 卷 积 神经 
网 络 ， 接受 一 个 定 长 的 向 量 作为 输入 。 关 经 网 络 对 文本 数据 建 





模 时 ， 输 入 变 长 的 字符 串 或 者 单词 绅 ， 然 后 通过 滑动 窗口 加 池 化 的 方式 
将 原先 的 输入 转换 成 一 个 固定 长 度 的 向 量 表示 ， 这 样 做 可 以 捕捉 到 原文 
本 中 的 一 些 局 部 特征 ， 但 是 两 个 单词 之 间 的 长 距离 依赖 关系 还 是 很 难 被 








循环 神经 网 络 却 能 很 好 地 处 理 文本 数据 变 长 并 且 有 序 的 输入 序列 。 
它 模拟 了 人 阅读 一 篇 文章 的 顺序 ， 从 前 到 后 阅读 文章 中 的 每 一 个 单词 ， 
将 前 面 阅读 到 的 有 用 信息 编码 到 状态 变量 中 去 ， 从 而 拥有 了 一 定 的 记忆 
能 力 ， 可 以 更 好 地 理解 之 后 的 文本 。 图 10.1 展 示 了 一 个 典型 的 循环 神经 
网 络 结构 E22。 


Te 


图 10.1 循环 神经 网 络 结构 


由 图 可 见 ， 一 个 长 度 为 7 的 序列 用 循环 神经 网 络 建 模 ， 展 开 之 后 可 
以 看 作 是 一 个 T 层 的 前 馈 神 经 网 络 。 其 中 ， 第 ! 层 的 隐 含 状态 hn 编码 了 序 
列 中 前 [个 输入 | ， 可 以 通过 当前 
态 hi- 计算 得 到 ; 最 后 一 层 的 状态 hy 编码 了 整个 序列 的 因此 可 以 
作为 整 篇 文档 的 压缩 表示 ， 以 此 为 基础 的 结构 可 以 应 用 于 多 种 具体 任 
务 。 例 如 ， 在 各 后 面 直 接 接 一 个 Softmax 层 ， 输 出 文本 所 属 类 别 的 预测 
概率 y， 就 可 以 实现 文本 分 类 。h, 和 y 的 计算 公式 为 
























net=Ux,+Wh,-1 ， 


(10.1) 
hefinet) ， 

(10.2) 
y=9(Vhr) ， 

(10.3) 


甚 中 所 lg 为 激活 函数 ，U 为 输入 层 到 隐 含 层 的 权重 矩阵 ，W 为 隐 含 层 从 
上 一 时 刻 到 下 一 时 刻 状态 转移 的 权重 矩阵 。 在 文本 分 类 任务 中 ，[ 可 以 


选取 Tanh 函 数 或 者 ReLU 函 数 ，g 可 以 采用 Softmax 函 数 。 


通过 最 小 化 损失 误差 ( 即 输 出 的 y 与 真实 类 别 之 间 的 距离 》， 我 们 
可 以 不 断 训 练 网 络 ， 使 得 得 到 的 循环 神经 网 络 可 以 准确 地 预测 文本 所 属 
的 类 别 ， 达 到 分 类 目的 。 相 比 于 卷 积 神经 网 络 等 前 馈 神 经 网 络 ， 循 环 神 
经 网 络 由 于 具备 对 序列 顺序 信息 的 刻画 能 力 ， 往 往 能 得 到 更 准确 的 结 
Re 





02 ”循环 神经 网 络 的 梯度 





细 究 深度 学 习 的 发 展 历史 ， 其 实 早 在 1989 年 ， 深 度 学 习 先 驱 Lecun 
就 已 经 提出 了 基于 ene connie 将 其 用 于 数字 
在 当 






ice nin 于 REEM ECEE AE, 在 20 世 纪 80 
年 代 末 ， 这 上 股 浪潮 便 渐渐 退去 ， 走 向 平淡 。 


1991 年 ， 深 度 学 习 的 发 展 达 到 了 一 个 冰点 。 在 这 一 年 ， 反 向 传播 算 
失 (Gradient Vanishing) 问题 ， 即 在 梯度 的 反 向 传 
播 过 程 中 ， 后 层 的 梯度 以 连 乘 方式 麦 加 到 前 层 。 由 于 当时 神经 网 络 中 的 
激活 函数 一 般 都 使 用 Sigmoid 函 数 而 它 具 有 饱和 特性 ， 在 输入 达到 一 

就 梯度 本 来 就 比较 
为 0， 因 此 无 法 对 前 层 的 参数 进 
景气 的 深度 学 习 领 域 雪 上 加 霜 。 在 
失 的 问题 呢 ? 










这 个 问 
神经 sia. ERIR GerEbD 





知识 点 
梯度 消失 ， 梯 度 爆 炸 (Gradient Explosion) 


问题 循环 神经 网 络 为 什么 会 出 现 梯度 消失 或 梯度 爆 
炸 ? 有 哪些 改进 方案 ? 


难度 : deters te 


分 析 与 解答 


循环 神经 网 络 模型 的 求解 可 以 采用 BPTT (Back Propagation 
Through ”Time， 基 于 时 间 的 反 向 传播 算法 实现 ，BPTT 实 际 上 是 反 向 
传播 算法 的 简单 变种 。 如 果 将 循环 神经 网 络 按时 间 展 开 成 T 层 的 前 馈 神 
经 网 络 来 理解 ， 就 和 普通 的 反 向 传播 算法 没有 什么 区 别 了 。 循 环 神经 网 
的 设计 初衷 之 一 就 是 能 够 捕获 长 距离 输入 之 间 的 依赖 。 从 结构 上 来 
看 循环 神经 网 络 也 理应 能 够 做 到 这 一 点 。 然 而 实践 发 现 ， 使 用 BPTT 
GE 的 循环 神经 网 络 并 不 能 成 功 捕捉 到 长 距离 的 依赖 关系 ， 这 一 现 
象 主要 源 于 深度 神经 网 络 中 的 梯度 消失 。 传 统 的 循环 神经 网 络 梯度 可 以 
表示 成 连 乘 的 形式 











Onet, _ Onet, net, , „netz 
ich aea ia iak, 











0.4) 
其 中 
net;=Ux,+Why-1 ， 

(10.5) 
hefinet) ， 

10.6) 
y=g(Vh,) ， 

0.7) 


=W «diag[f"(net, .)] 






Wha f (net) ~ Lon 


Waf (ret) Wua f'e) j, 


(40.8) 


anet, 
其 中 m 为 隐 含 层 hi-; 的 维度 〈 即 隐 含 单元 的 个 数 ) ，anet-, 对 应 的 nxn 维 矩 
阵 ， 又 被 称 为 雅 可 比 和 矩阵 。 


由 于 预测 的 误差 是 沿 着 神经 网 络 的 每 一 层 反 向 传播 的 ， 因 此 当 雅 克 
比 短 阵 的 最 大 特征 值 大 于 1 时 ， 随 着 离 输 出 越 来 越 远 ， 每 层 的 梯度 大 小 
会 呈 指数 增长 ， 导 致 梯度 爆炸 ;反之 ， AEREN R A 
1， 梯 度 的 大 小 会 呈 指数 缩小 ， 产 生 梯 。 对 于 普通 的 前 馈 网 络 来 
说 ， 梯 度 消失 意味 着 无 N A nea meet a 
果 ， 因 为 无 论 如 何 加 深 网 络 ， 只 有 靠近 输出 的 若干 层 才 真正 起 到 学 习 的 
作用 这 使 得 循环 神经 网 络 模型 很 难 学 习 到 输入 序列 中 的 长 距离 依赖 关 






梯度 爆炸 的 问题 可 以 通过 梯度 裁剪 来 缓解 ， 即 当 梯度 的 范式 大 于 某 
个 给 定 值 时 ， 对 梯度 进行 等 比 收 缩 。 而 梯度 消失 问题 相对 比较 棘手 ， 需 
要 对 模型 本 身 进行 改进 。 深 度 残 差 网 络 是 对 前 馈 神经 网 络 的 改进 ， 通 过 
残 差 学 习 的 方式 缓解 了 梯度 消失 的 现象 ， 从 而 使 得 我 们 能 够 学 习 到 更 深 
层 的 网 络 表示 ;而 对 于 循环 神经 网 络 来 说 ， 长 短 时 记忆 模型 5 及 其 变 
种 门 控 循环 单元 (Gated recurrent unit, GRU) [2 等 模型 通过 加 入 门 控 
机 制 ， 很 大 程度 上 弥补 了 梯度 消失 所 带 来 的 损失 









03 ”循环 神经 网 络 中 的 激活 函数 


场景 描述 

我 们 知道 ， 在 卷 积 神经 网 络 等 前 馈 神经 网 络 中 采用 ReLU 激 活 函 数 
通常 可 以 有 效 地 改善 榜 度 消失 ， 取 得 更 快 的 收 化 速 度 和 更 好 的 收敛 结 
果 。 那 么 在 循环 神经 网 络 中 可 以 使 用 ReLU 作 为 每 层 神经 元 的 激活 函数 
吗 ? 
知识 点 

ReLU， 循 环 神经 网 络 ， 激 活 函 数 


问题 在 循环 神经 网 络 中 能 否 使 用 ReLU 作 为 激活 函数 ? 


难度 : deker 


分 析 与 解答 
答案 是 肯定 的 ， 但 是 需要 对 矩阵 的 初 值 做 一 定 限制 ， 否 则 十 分 容易 
引发 数值 问题 。 为 了 解释 这 个 问题 ， 让 我 们 回顾 一 下 循环 神经 网 络 的 前 
向 传播 公式 
net=Ux,+ Why 
0.9) 


h=finet) 


(10.10) 
根据 前 向 传播 公式 向 前 传递 一 层 ， 可 以 得 到 
net, = Ux, + Wh 1 = Ur, +Wf (Us, + Wh 2) 
(1011) 


如 果 采 用 ReLU 葵 代 公式 中 的 激活 函数 [， 并 且 假设 ReLU 函 数 一 直 处 
于 激活 区 域 〔 即 输入 大 于 0) ， 则 有 fe)=x,net, = Ux, +W (Ux + Wh,)。 
继续 将 其 展开 ，net 的 表达 式 中 最 终 包 含 ! 个 w 连 乘 。 如 果 W 不 是 单位 年 
阵 《 对 角 线 上 的 元 素 为 1， 其 余 元 素 为 0 的 矩阵 ) ， 最 终 的 结果 将 会 趋 
0 或 者 无 穷 ， 引 发 严重 的 数值 问题 。 那 么 为 什么 在 卷 积 神经 网 络 中 不 会 
出 现 这 样 的 现象 呢 ? 这 是 因为 在 卷 积 神经 网 络 中 每 一 层 的 权重 矩阵 W 是 
不 同 的 ， 并 且 在 初始 化 时 它们 是 独立 同 分 布 的 ， 因 此 可 以 相互 抵消 ， 在 
多 层 之 后 一 般 不 会 出 现 严重 的 数值 问题 。 
再 回 到 循环 神经 网 络 的 梯度 计算 公式 
Onet, 


net, 


=W «diag[f'(net,.)] 








Wa f (net) = Waf (nets), 





net = nae 


(10.12) 
假设 采用 ReLU 。 激活 函数 ， 且 一 开始 所 有 的 神经 元 都 处 于 激活 中 


et， 


《 即 输入 大 于 0) ， diag (nen Mf ERE, 有 anes-， ”。 在 梯度 


jet, 





BATTE, nen 。 可 以 看 到 ， 即 使 采用 了 ReLU 激 活 函 
数 ， 只 要 W 不 是 单位 矩阵 ， 梯 度 还 是 会 出 现 消失 或 者 爆炸 的 现象 。 


综 上 所 述 ， 当 采用 ReLU 作 为 循环 神经 网 络 中 隐 含 层 的 激活 函数 
时 ， 只 有 当 W 的 取 值 在 单位 矩阵 附近 时 才能 取得 比较 好 的 效果 ， 因 此 需 
要 将 W 初 始 化 为 单位 矩阵 。 证 明 ， 初 始 化 W 为 单位 矩阵 并 使 用 ReLU 





激活 函数 在 一 些 应 用 中 取得 了 与 长 短期 记忆 模型 相似 的 结果 ， 并 且 学 习 
速度 比 长 短期 记忆 模型 更 快 ， 是 一 个 值得 尝试 的 小 技巧 [25]。 


04 长 短期 记忆 网 络 


长 短期 记忆 网 络 (Long Short Term Memory, LSTM) 是 循环 神经 
网 络 的 最 知名 和 成 功 的 扩展 。 由 于 循环 神经 网 络 有 梯度 消失 和 梯度 爆炸 
的 问题 ， 学 习 能 力 有 限 ， 在 实际 任务 中 的 效果 往往 达 不 到 预期 效 
LSTM 可 以 对 有 价值 的 信息 进行 长 期 记忆 ， 从 而 减 小 循环 神经 网 络 的 学 
习 难 度 ， 因 此 在 语音 识别 E 模 、 机 器 翻译 、 命 名 实体 识别 、 图 像 
描述 文本 生成 等 问题 中 有 着 广泛 应 用 。 












知识 点 
LSTM， 门 控 ， 激 活 函 数 ， 双 曲 正切 函数 ，Sigmoid 函 数 
问题 1 LSTM 是 如 何 实现 长 短期 记忆 功能 的 ? 
难度 : deters te 
分 析 与 解答 


有 图 有 真相 ， 我 们 首先 结合 LSTM 结 构图 以 及 更 新 的 计算 公式 探讨 
这 种 网 络 如 何 实现 其 功能 ， 如 图 10.2 所 示 。 











pease 


图 10.2 长 短 时 记 亿 模型 内 部 结构 示意 


与 传统 的 循环 神经 网 络 相 比 ，LSTM 仍 然 是 基于 Xx, 和 h,_ 来 计算 h， 
只 不 过 对 内 部 的 结构 进行 了 更 加 精心 的 设计 ， 加 入 了 输入 门 ij、 遗 忘 门 所 
以 及 输出 门 o, 三 个 门 和 一 个 内 部 记忆 单元 c.。 输 入 门 控制 当前 计算 的 新 
状态 以 多 大 程度 更 新 到 记忆 单元 中 ; 遗忘 门 控制 前 一 步 记忆 单元 中 的 信 
息 有 多 大 程度 被 遗忘 掉 ;输出 门 控制 当前 的 输出 有 多 大 程度 上 取决 于 当 
前 的 记忆 单元 。 


经 典 的 LSTM 中 ， 第 t 步 的 更 新 计算 公式 为 
jEo(Waet Uihe 1+b) + 





(10.13) 
feo(Wpee+ Ue 1+b)) + 

(10.14) 
oa(WaxrUoh itbo) > 

(10.15) 
C=Tanh( Wxet Uh 1) + 

(10.16) 


COG, 


(10.17) 
h=0,Tanh(c,) . 


(10.18) 


其 中 i 是 通过 输入 % 和 上 一 步 的 隐 含 层 输 出 上 -进行 线性 变换 ， 再 经 
过 激活 函数 得 到 的 。 输 入 门 的 结果 是 向 量 ， 其 中 每 个 元 素 是 0 到 1 之 间 






得 到 的 。 
它们 有 各 自 的 参数 W、U 和 | 
上 一 个 记忆 单元 的 状态 c,-1 到 当前 的 j 
T 和 于 激活 函数 计算 得 到 的 状态 ， 还 由 输入 门 和 遗忘 让 
同 控 制 。 


tpit, SN MFI 
it 门 的 






















列 中 出 现 了 重要 
的 值 接近 1， 
息 被 记忆 。 经 过 
the 








Dee 


问题 2 LSTM 里 各 模块 分 别 使 用 什么 激活 函数 ， 可 以 使 
用 别 的 激活 函数 吗 ? 


WEE: tok desire 
分 析 与 解答 


关于 激活 函数 的 选取 ， 在 LSTM 中 ， 遗 忘 门 、 输 入 门 和 输出 门 使 用 


Sigmoid 函 数 作为 激活 函数 ， 在 生成 候选 记忆 时 ， 使 用 双 曲 正切 函数 
Tanh 作 为 激活 函数 。 值 得 注意 的 是 ， 这 两 个 激活 函数 都 是 饱和 的 ， 也 就 
是 说 在 输入 达到 一 定 值 的 情况 下 ， 输 出 就 不 会 发 生 明显 变化 了 。 如 果 是 
用 非 饱 和 的 激活 函数 ， 例 如 ReLU， 那 么 将 难以 实现 门 控 的 效果 。 
Sigmoid 函 数 的 输出 在 0 一 1 之 间 ， 符 合 门 控 的 物理 定义 。 且 当 输入 较 大 
或 较 小 时 ， 其 输出 会 非常 接近 1 或 0， 从 而 保证 该 门 开 或 关 。 在 生成 候选 
记忆 时 ， 使 用 Tanh 函 数 ， 是 因为 其 输出 在 -1 一 1 之 间 ， 这 与 大 多 数 场景 
下 特征 分 布 是 0 中 心 的 吻合 。 此 外 ，Tanh 函 数 在 输入 为 0 附近 相 比 
Sigmoid 函 数 有 更 大 的 梯度 ， 通 常 使 模型 收敛 更 快 。 


激活 函数 的 选择 也 不 是 一 成 不 变 的 。 例 如 在 原始 的 LSTM 中 ， 使 用 
的 激活 函数 是 Sigmoid 函 数 的 变种 ，h(x)=2sigmoid(x) 
=1, g(x)=4sigmoid(x) 两 个 函数 的 范围 分 别 是 [-141] 和 [-2,2]。 并 且 
在 原始 的 LSTM 中 ， 只 有 输入 门 和 输出 有 遗忘 门 ， 其 中 输入 经 过 
输入 门 后 是 直接 与 记忆 相 加 的 ， 所 以 输入 门 控 g(x) 的 值 是 0 中 心 的 。 后 来 
经 过 大 量 的 研究 和 实验 ， 人 们 发 现 增加 遗忘 门 对 LSTM 的 性 能 有 很 大 的 
提升 R99， 并 且 h(x) 使 用 Tanh 比 2*sigmoid(x)-1 要 好 ， 所 以 现代 的 LSTM 采 
用 Sigmoid 和 Tanh 作 为 激活 函数 。 事 实 上 在 门 控 中 ， 使 用 Sigmoid 函 数 是 
几乎 所 有 现代 神经 网 络 模块 的 共同 选择 。 例 如 在 门 控 循环 单元 和 注意 力 
机 制 中 ， 也 广泛 使 用 Sigmoid 函 数 作为 门 控 的 激活 函数 。 


此 外 ， 在 计算 能 力 有 限制 的 设备 ， 诸 如 可 穿戴 设备 中 ， 由 于 
Sigmoid 函 数 求 指数 需要 一 定 的 计算 量 ， 此 时 会 使 用 0/1 门 Chard gate) 
让 门 控 输出 为 0 或 1 的 离散 值 ， 即 当 输入 小 于 阔 值 时 ， 门 控 输 出 为 
输入 大 于 阔 值 时 ， 输 出 为 1。 从 而 在 性 能 下 降 不 显著 的 情况 下 ， 减 小 计 
算 量 。 经 典 的 LSTM 在 计算 各 门 控 时 ， 使 用 输入 x, 和 隐 层 输出 h,_, 参 
与 门 控 计算 ， 例 如 对 于 输入 门 的 更 新 : Wa, +Uh 4+b)。 其 最 常见 的 
变种 是 加 入 了 罕 孔 机 制 27， 让 记忆 ct- 也 参与 到 了 门 控 的 计算 中 ， 此 时 
输入 门 的 更 新 方式 变 为 


i = oWx, +U jh +V +h), 







































(10.19) 


总 而 言 之 ，LSTM 经 历 了 20 年 的 发 展 ， 其 核心 思想 一 脉 相 承 ， 但 各 
个 组 件 都 发 生 了 很 多 演化 。 了 解 其 发 展 历程 和 种 ， 可 以 让 我 们 在 
实际 工作 和 研究 中 ， 结 合 问题 选择 最 佳 的 LSTM 模 块 ， 灵 活 地 思考 ， 并 








知 其 所 以 然 ， 而 不 是 死 背 各 种 网 络 的 结构 和 公式 。 


05 ”Seq2Seq 模 型 


Seq2Seq， 全 称 Sequence to Sequence 模 型 ， 目前 还 没有 一 个 很 好 的 
eC, 我 们 暂且 称 之 为 序列 到 序列 模型 。 大 致意 思 . 

， 通 过 编码 和 解码 生成 一 个 新 的 序列 信号 
aU. 自动 对 话 等 任务 ， 在 Seq2Seq 模 型 提出 
像 分 类 等 问题 上 取得 了 非常 好 的 效果 。 在 深度 学 上 
和 输出 通常 都 可 以 表示 为 固定 长 度 的 向 量 ， MIRKE, 会 使 用 
补 零 等 操作 。 然 而 像 前 面 提 到 的 几 个 问题 ， 其 序列 长 度 事先 并 不 知道 。 
因此 如 何 突破 先前 深度 神经 网 络 的 局 限 ， 使 其 适应 于 更 多 的 场景 ， 成 了 
2013 年 以 来 的 研究 热点 ，Seq2Seq 模 型 也 应 运 而 生 。 













知识 点 


Seq2Seq， 机 器 翻译 ， 集 束 搜索 (Beam Search) 





问题 1 什么 是 Seq2Seq 模 型 ? Seq2Seq 模 型 有 哪些 优点 ? 


难度 : okete te 
分 析 与 解答 


Seq2Seq 模 型 的 核心 思想 是 ， 通 过 深度 神经 网 络 将 一 个 作为 输入 的 
序列 映射 为 一 个 作为 输出 的 序列 ， 这 一 过 程 由 编码 输入 与 解码 输出 两 个 
环节 构成 。 在 经 典 的 实现 中 ， 编 码 器 和 解码 器 各 由 一 个 循环 神经 网 络 构 
成 ， 既 可 以 选择 传统 循环 神经 网 络 结构 ， 也 可 以 使 用 长 短期 记忆 模型 、 








门 控 循环 单元 等 。 在 Seq2Seq 模 型 中 ， 两 个 循环 神经 网 络 是 共同 训练 
的 。 





只 好 ism a0, rien rea 
多 少 写 多 少 ， 解 码 出 很 短 时 效 | 











图 103 ”循环 神经 网 络 编 解 玛 


于 机 器 翻译 过 程 ， Se AALS ESE — Mi 
入 A、B、C 和 结尾 : 
解码 器 读 入 编 的 器 的 最 终 状 ae 

; 第 二 步 读 入 第 一 步 的 输出 W， 生 成 第 二 
此 循环 ， neal 结尾 符 <EOS>。 输 出 的 序列 W、X、Y、ZZ EEn 
目标 诸 言 的 句子 。 


在 文本 摘要 任务 中 ， 输 入 的 序列 是 长 句子 或 段落 ， 输 出 的 序列 是 摘 
要 短 句 。 在 图 像 描述 文本 生成 任务 中 ， 输 入 是 图 像 经 过 视觉 网 络 的 特 


对 应 
句子 ， 


















征 ， 输 出 的 序列 是 图 像 的 描述 短 句 。 进 行 语音 识别 时 ， 输 入 的 序列 是 音 
频 信号 ， 输 出 的 序列 是 识别 出 的 文本 。 不 同 场景 中 ， 编 码 器 和 解码 器 有 
不 同 的 设计 ， 但 对 应 Seq2Seq 的 底层 结构 却 如 出 一 梧 。 


w x # z os 





图 10.4 机 器 翻译 模型 结构 示意 图 


问题 2 Seq2Seq 模 型 在 解码 时 ， 有 哪些 常用 的 办 法 ? 


难度 : kekeke rr 





法 获得 的 是 一 个 局 部 最 优 解 ， 由 于 实际 问题 的 复杂 性 ， 这 方法 往往 站 不 


能 取得 最 好 的 效果 。 
ARREN 改进 算法 ， 它 是 一 种 启发 式 算法 。 该 方法 会 保存 
简写 为 b) 个 当前 的 较 佳 选择 ， 然 后 解码 时 每 一 步 根据 
mien 步 扩展 和 排序 ， 接着 选择 前 b 个 进行 保存 ， 循环 选 
者 束 时 选择 最 佳 的 一 个 作为 解码 的 结果 。 图 10.5 是 b 为 2 时 的 集 






MAEN en peer 两 个 新 的 个 序 列 


re 
= i f=] 


图 10.5 集束 搜索 示例 


由 图 可 见 ， 当 前 已 经 有 解码 得 到 的 第 一 个 词 的 两 个 候选 :I 和 My。 
然后 ， 将 I 和 My 输入 到 解码 器 ， 得 到 一 系列 候选 的 序列 ， 诸 如 I 
decided、My decision、I thought 等 。 最 后 ， 从 后 续 序列 中 选择 最 优 的 两 
个 ， 作 为 前 两 个 词 的 两 个 候选 序列 。 很 显然 ， 如 果 b 取 1， 那 么 会 退化 为 
前 述 的 贪心 法 。 随 着 b 的 增 大 ， 其 搜索 的 空间 增 大 ， 最 终 效果 会 有 所 提 
升 ， 但 需要 的 计算 量 也 相应 增 大 。 在 实际 的 应 用 〈 如 机 器 翻译 、 文 本 摘 
要 ) 中 ，b 往 往 会 选择 一 个 适中 的 范围 ， 以 8 一 12 为 佳 。 


解码 时 使 用 堆 秋 的 RNN、 增 加 Dropout 机 制 、 与 编码 器 之 间 建 立 残 
差 连接 等 ， 均 是 常见 的 改进 措施 。 在 实际 研究 工作 中 ， 可 以 依据 不 同 使 
用 场景 ， 有 针对 地 进行 选择 和 实践。 


另外 ， 解 码 环节 中 一 个 重要 的 改进 是 注意 力 机 制 ， 我 们 会 在 下 一 节 
深入 介绍 。 注 意 力 机 制 的 引入 ， 使 得 在 解码 时 每 一 步 可 以 有 针对 性 地 关 
注 与 当前 有 关 的 编码 结果 ， 从 而 减 小 编码 器 输出 表示 的 学 习 难度 ， 也 更 
容易 学 到 长 期 的 依赖 关系 。 此 外 ， 解 码 时 还 可 以 采用 记忆 网 络 P8I 等 ， 
从 外 界 获取 知识 。 





06 注意 力 机 制 





场景 描述 
无 论 机 器 学 习 、 深 度 学 习 还 是 人 工 智能 ， 我 们 似乎 都 在 寻找 一 种 可 
以 模拟 人 脑 的 机 制 ， 注 意 力 机 制 (Attention Mechanism) 实际 上 也 是 源 





于 类 似 的 思路 。 研 究 发 现 ， 人 脑 在 工人 一 定 注意 力 的 。 比 如 当 我 
们 欣赏 一 幅 艺 术 作 品 时 ， 可 以 看 到 其 全 貌 。 而 当 我 们 深入 关注 画作 的 细 
节 时 ， 其 实 眼睛 只 聚焦 在 了 画幅 上 很 小 的 一 部 分 ， 而 忽略 了 其 他 位 置 的 
诸如 背景 说 明 大 脑 在 处 理 信号 时 是 有 一 定 权 重 划分 的 ， 而 注 
意 力 机 制 的 提出 正 是 模仿 了 大 脑 的 这 种 核心 特性 。 











知识 点 
注意 力 机 制 ，Seq2Seq， 循 环 神经 网 络 


问题 ”Seq2Seq 模 型 引入 注意 力 机 制 是 为 了 解决 什么 问 
题 ? 为 什么 选用 了 双向 的 循环 神经 网 络 模型 ? 


难度 tok keke str 
分 析 与 解答 


在 实际 任务 〈 例 如 机 器 翻译 )》 中 ， 使 用 Seq2Seq 模 型 ，i 通常 会 先 合 

用 一 个 循环 神经 网 络 作为 编码 器 ， 将 输入 序列 ( 源 i 

列 ) 编码 成 为 一 个 向 量 表示 ; 然后 再 使 用 一 个 循环 神经 网 络 模型 作为 角 

Ba: 从 编码 器 得 到 的 向 量 表示 里 解码 得 到 输出 序列 《目标 诸 言 句子 的 
词 序列 ) 





在 Seq2Seq 模 型 中 〈 见 图 10.6) ， 当 前 隐 状 态 以 及 上 一 个 输出 词 决 
定 了 当前 输出 词 ， 即 


= 1014 





(10.20) 
PO, NF) = 808) 
(10.21) 


甚 中 所 19 是 变换 ， 通 常 是 多 层 神经 网 络 ，y 是 输出 序列 中 的 一 


词 ，sj 是 对 应 


re ee 


图 10.6 “序列 到 序列 模型 结构 示意 图 


在 实际 使 用 中 ， 会 发 现 随 着 输入 序列 的 增长 ， 模 型 的 性 能 发 生 了 显 
下 降 。 这 是 因为 编码 时 输入 序列 的 全 部 pes i TET 

。 随 着 序列 增长 ， pe Lt 想 | 
Aroon iat F, 需要 将 整个 句子 全 
量 中 目 的 


相对 应 
模 时 的 一 个 小 技巧 是 : 逆序 BB 
模型 ， 以 得 到 一 定 的 性 能 提升 Pernt ae ei 
缓解 这 个 问题 ， 但 在 实践 中 对 于 过 长 的 序列 仍然 难以 有 很 好 的 表现 。 P 
时 ，Seq2Seq 模 型 的 输出 序列 中 ， 会 损失 部 分 输入 序列 

是 因为 在 解码 时 ， 当 前 词 及 对 民 词 的 :| Creamer 
编 解码 过 程 中 丢失 了 。 


Seq2Seq 模 型 中 引入 注意 力 机 制 就 是 为 了 解决 上 述 的 问题 。 在 注意 
力 机 制 中 ， 仍 然 可 以 用 普通 的 循环 神经 网 络 对 输入 序列 进行 编码 ， 得 到 


































隐 状 态 hh.….hr。 但 是 在 解码 时 ， 每 一 个 输出 词 都 依赖 于 前 一 个 隐 状 态 
以 及 输入 序列 每 一 个 对 应 的 隐 状 态 


=F GIG), 
(10.22) 


PO; | Paes Via) = 8O36) 


(10.23) 
H EAF EAB ARASH hy... hrii — PAL 





Ah; 


(10.24) 


其 中 注意 力 权重 参数 a 并 不 是 一 个 固定 权重 ， 而 是 由 另 一 个 神经 网 络 计 
算得 到 





(1025) 
e; =45,.5h)), 
(10.26) 


神经 网 络 o 将 上 一 个 输出 序列 隐 状 态 s-; 和 输入 序列 隐 状 态 岂 作为 输 
入 ， 计 算出 一 个 %， 儿 对 齐 的 值 ej， 再 归 一 化 得 到 权重 ay。 
我 们 可 以 对 此 给 出 一 个 直观 的 理解 ， 在 生成 一 个 输出 词 时 ， 会 考虑 


每 一 个 输入 词 和 当前 输出 词 的 对 齐 关系 ， 对 齐 越 好 的 词 ， 会 有 越 大 的 权 
重 ， 对 生成 当前 输出 词 的 影响 也 就 越 大 。 图 10.7 展 示 了 翻译 时 注意 力 机 





制 的 权重 分 布 ， 在 互 为 翻译 的 词 对 上 会 


Ë 


accord 


la 
économique| 
européenne 


图 107 


在 机 器 翻译 这 样 
用 到 第 ;个 输入 词 对 应 的 隐 状 
T 方向 的 循环 sis 经 网 络 来 












10.8 所 示 。 





个 典型 ance | 
及 对 应 的 注意 力 权重 aj。 





有 最 大 的 权重 291。 


注意 力 机 制 的 权重 分 布 





生成 一 个 输出 词 yj, 会 
如 果 只 使 用 


那么 nee 了 xox 

































































注意 力 机 制 是 一 种 思想 ， 可 以 有 多 种 不 同 的 实现 方式 ， 在 Seq2Seq 
模型 以 外 的 场景 也 有 不 少 应 用 。 图 10.9 展 示 了 在 图 像 描述 文本 生成 任务 
中 的 结果 ， 可 以 看 到 在 生成 对 应 词 时 ， 图 片上 对 应 物体 的 部 分 有 较 大 的 


注意 力 权重 B01。 


A woman is throwing a frisbee ina park. 


i 
a Lied 
j 


A little giri siting on a bed with a teddy bear: 








图 109 注意 力 机 制 在 图 片 描述 文本 生成 中 的 应 用 


第 11 章 ”强化 学 习 


不 同 ， 
输出 打分 。 相 反 ， 决 策 器 只 能 得 : 
EMAMT, eure rtd 

部 分 涉 





01 强化 学 习 基础 


MARERA MALINA 
左 、 右 四 个 方向 移动 马里 奥 
场景 中 ， 强 化 学 习 需 要 定义 


k 






w a 
些 基本 概念 来 完成 对 问题 的 数学 建 模 。 














图 11.1 HASRA 

















知识 点 


1 强化 学 习 ， 马 尔 可 夫 决策 过 程 ， 价 值 夺 代 〔Value Iteration) , 策略 
迭代 





问题 1 强化 学 习 je 在 马里 奥 找 宝藏 问 


题 中 如 何 定义 ; 





难度 : deer ts oe 
分 析 与 解答 


强化 学 习 的 基本 场景 可 以 用 图 11.2 来 描述 ， 主 要 由 环境 
(Environment) 、 机 器 人 (Agent) Æ (State) 、 动 作 
(Action) 、 奖 励 (Reward) 等 基本 概念 构 个 机 器 人 在 环 境 中 会 
做 各 种 动作 ， 环 境 会 接收 动作 ， 并 引起 自身 状态 的 变迁 ， 同 时 给 机 器 人 
eee 机 器 人 的 目标 就 是 使 用 一 些 策略 ， 做 合适 的 动作 ， 最 大 化 自身 
收益 。 












图 11.2 


整个 场景 一 般 可 以 描述 为 一 个 马尔 可 夫 决 策 过 程 Markov Decision 
Process，MDP) 。 马 尔 可 夫 决策 过 程 是 neal 程 与 确定 性 的 动 
， 指 决策 者 周期 地 或 I 随 
序 贯 地 做 出 决策 的 过 程 ， RDNA ees 马尔 可 
nee. 这 个 过 程 包括 以 下 几 个 要 素 : 








。 动作 : 所 有 可 能 做 出 的 动作 的 集合 ， 记 作 A (可 能 是 无 限 的 ) 。 对 
于 本 题 ，A= 马 里 奥 在 每 个 单元 格 可 以 行走 的 方向 ， 即 {上 、 下 、 


左 、 右 }。 
。 状态 : 所 有 状态 的 集合 ， 记 作 S。 对 于 本 题 ，5 为 棋盘 中 每 个 单 
的 位 置 坐 标 {(xy); X=1,2,3; y=1,2,3} 马里 奥 当前 位 于 (1,1) ， 宝 藏 





位 于 (3,2) 。 
奖励 : 机 器 人 可 能 收 到 的 奖励 ， 一 般 是 一 个 实数 ， 记 作 r。 对 于 本 
题 ， 如 果 马 里 奥 每 移动 一 步 ， 定 义 r=-1;， 如 果 得 到 宝藏 ， 定 

义 r=0， 游 戏 结束 。 

时 间 (t=1,2,3...) : 在 每 个 时 间 点 :， 机 器 人 会 发 出 一 个 动作 qa,， 收 
到 环境 给 出 的 收益 r,， 同 时 环境 进入 到 一 个 新 的 : 
: SxA 一 S 满 足 B(sls, 












HME IK AIO FH ca ES 


R=E(QQ'7|5 =5) 
a 


， 在 很 多 时 候 ， 我 们 可 以 取 T=o。 


个 从 状态 空间 S 到 动作 空间 A 的 映 
学 习 算 法 有 Q-Learning、 策 略 梯度 ， 





问题 2 根据 图 11.1 给 定 的 马里 奥 的 位 置 以 及 宝藏 的 位 
置 ， 从 价值 欠 代 来 考虑 ， 如 何 找到 一 条 最 优 路 线 ? 


HEEE: dokeve 
分 析 与 解答 


上 一 间 已 经 把 强化 学 习 问题 形式 化 为 马尔 可 夫 决 策 过 程 。 下 面 我 们 
介绍 如 何 利用 价值 迭代 求解 马尔 可 夫 诀 策 过程 。 那 么 什么 是 价值 呢 ? 我 
们 将 当 状态 s 的 价值 Vs) 定 义 为 : 从 状态 s=(xy) 开 始 ， 能 够 获得 的 最 大 
洁 合 图 11.3 可 以 非常 直观 地 理解 价值 迁 代 。 
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图 11.3 选 代 过 程 


首先 ， 初 始 化 所 有 状态 的 价值 Ws)=0。 然 后 ， 在 每 一 轮 和 迭代 中 ， 对 
每 个 状态 s 依 次 执行 以 下 步骤 。 


。 逐 一 尝试 [上 、 下 、 左 、 右 } 四 个 动作 o， 记 录 到 达 状 态 * 和 奖励 r。 
。 计算 每 个 动作 的 价值 q(s,aO=r+Vs)。 

四 个 动作 中 选择 最 优 的 动作 mexfe(s 4 
。 更 新 5 状态 价值 。 


在 第 一 轮 过 代 中 ， 由 于 初始 状态 Vs) 均 为 0， 因 此 对 除 宝藏 所 在 位 置 
外 的 状态 s 均 有 Vs)=r+Vs)=-1+0=-1， 即 从 当前 位 置 出 发 走 一 步 获得 奖 








第 三 轮 和 第 四 轮 迁 代 如 法 炮制 。 可 以 发 现 ， 在 第 四 轮 和 迭代 中 ， 所 


有 Vs) 更 新 前 后 都 没有 任何 变化 ， 价 值 迁 代 已 经 找到 了 最 优 策 略 。 最 
终 ， 只 需要 从 马里 奥 所 在 位 置 开 始 ， 每 一 步 选 择 最 优 动作 ， 即 可 最 快 地 
找到 宝藏 

上 面 的 近代 过 程 实 | 
来 对 每 个 位 置 的 价值 进 : 


Vals) = max Ppls',rls, r+ 7V-(s')] 








运用 了 贝尔 曼 方 程 (Bellman Equation) , 
新 


(111) 


贝尔 曼 方 程 中 状态 s 的 价值 Vs) 由 两 部 分 组 成 : 


。 采取 动作 a 后 带 来 的 奖励 r。 
。 采取 动作 a 后 到 达 的 新 状态 的 价值 Vs')。 


问题 3 根据 图 11.1 给 定 的 马里 奥 的 位 置 以 及 宝藏 的 位 
置 ， 从 策略 选 代 来 考虑 ， 如 何 找到 一 条 最 优 路 线 ? 


WEE: doktor 
分 析 与 解答 


本 节 介 绍 马尔 可 夫 决策 过 程 的 另 一 种 求解 方法 一 策略 交代 。 什 么 
叫 策略 ? 策略 就 是 根据 当前 状态 决定 该 采取 什么 动作 。 以 场景 中 的 马里 
奥 寻 找 宝箱 为 例 ， 马 里 奥 需要 不 断 朝 着 宝藏 的 方向 前 进 :当前 状态 如 果 
ERAEN, NEME: 当 状态 如 果 在 宝藏 上 方 ， 策 略 应 该 
是 朝 下 走 。 


如 何 衡量 策略 的 好 坏 ? 这 就 需要 介绍 策略 评估 (Policy 
Evaluation) 。 给 定 一 个 策略 r， 我 们 可 以 计算 出 每 个 状态 的 期 望 价值 
Vs)。 策 略 迭 代 可 以 帮助 我 们 找到 更 好 的 策略 ， 即 期 望 价值 更 高 的 策 
略 ， 具 体 步骤 如 下 。 


(1) 初始 化 ， 随 机 选择 一 个 策略 作为 初始 值 。 比 如 “不 管 什么 状 
aS, 一 律 朝 下 走 "， 即 P (A= HFE |S) =1, P (A= 其 他 | Sas) 











(2) 进行 策略 评估 根据 当前 的 策略 计算 V.(s) =E, (+l) 


(3) 进行 策略 提升 ， 计 算 当前 状态 的 最 优 动作 mxfge(*e)， 更 新 策 


gt) = remax, (9 (88)} = argmax, D p(s'r|s,a)[r+7¥_(s')] 


(4) 不 停 地 重复 策略 评估 和 策略 提升 ， 直 到 策略 不 再 变化 为 止 。 
在 马里 奥 寻 找 宝藏 问题 中 ， 策 略 迭 代 过 程 如 图 11.4 所 示 。 


















































Policy Expected Value 
rr a 
初始 化 | i 下 4 -æ | -1 -mm 
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Policy Expected Value 
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图 11.4 策略 迭代 过 程 


初始 化 策略 为 : 不 论 马 里 奥 处 于 哪个 一 律 朝 下 走 。 根 据 这 一 
策略 进行 策略 评估 不 难 发 现 ， 只 有 宝藏 正 上 方 的 状态 可 以 到 达 宝藏 ， 期 
望 价值 为 到 宝藏 的 距离 -2， 二 1 和 0) ， 其 余 状态 不 能 通 
达 宝 藏 ， 期 望 价值 为 负 无 穷 。 然 后 根据 当前 的 期 望 价 值 进 行 策略 提升 : 
对 于 宝藏 正 上 方 的 状态 ， 策 略 已 经 最 优 ， 保 持 不 变 ， 对 于 不 在 宝藏 正 上 
K A a(s) = argmax, > p(s',r|s,a)[r+7V,(s')] 
方 的 状态 ， 根 据 策略 更 新 公式 

， 最 优 策 略为 横向 移动 一 步 。 


通过 上 一 轮 的 策略 提升 ， 这 一 轮 的 策略 变 为 : 对 于 宝藏 正 上 方 的 状 
， 问 下 移动 ; 对 re 藏 正 上 方 的 当 


WUE 态 价值 
FE, E TAERA, TSE SERLIE EI AAS TEEN 
TH ys(s )， 即 横向 移动 一 步 的 奖励 与 目标 状态 的 期 望 价值 之 和 。 然 后 












根据 更 新 后 的 期 望 价值 进行 策略 提升 ;不 难 发 现 ， 对 于 所 有 状态 ， 当 前 
策略 已 经 最 优 ， 维 持 不 变 ， 中 止 策略 提升 过 程 。 









马里 奥 只 需 从 初始 状态 〈11) 开始 ， 按 照 当 前 位 置 的 最 优 
行动 ， 即 向 右 行动 一 步 ， 然 后 一 直 向 下 行动 ， 即 可 最 快 找到 宝 





02 ”视频 游戏 里 的 强化 学 习 








et 
雅 达 利 《Atari) 是 
于 MEIR 
Bienes (BF ETA Al TERRA i 
习 ， 可 谓 量 其 应 用 场景 可 以 描述 为 : 在 离散 的 时 间 轴 
时 刻 你 可 以 得 到 当前 的 游戏 画面 (环境 ) ， 选 择 向 游戏 机 发 出 
指令 (如 上 、 下 、 左 、 右 、 开 火 等 ) ， 然 后 和 
于 原始 像素 的 强化 学 习 由 于 : 对 应 的 状态 空间 巨大 ， 
统 的 方法 。 于 是 ，2013 年 DeepMind 提 出 了 深度 强化 学 习 模型 ， 开 始 了 
深度 学 习 和 强化 学 习 的 结合 BU。 











传统 的 强化 学 习 主要 使 用 Q-learning， 而 深度 强化 学 习 也 使 用 Q- 
learning 为 基本 框架 ， 把 Q-learning 的 对 应 步骤 改 为 深度 形式 ， 并 引入 了 
Pi aad 例如 经 验 重 放 Cexperience replay) 来 加 快 收敛 以 及 提高 泛 化 
能 力 。 


知识 点 
强化 学 习 ，Q-learning 


问题 什么 是 深度 强化 学 习 ， 它 和 传统 的 强化 学 习 有 什 
么 不 同 ? 


WEE: okker 
分 析 与 解答 


2013 年 ，DeepMind 提 出 的 # 习 仍 然 使 用 经 典 的 Q-learning 
框架 80。Q-leaming 的 本 质 是 ， js Biia Kiih VAPOR 
数 之 闻 存 在 关系 26s) =E, y, Sep 5T EY MOa), tgs, 
是 终 态 ， 则 yj=r)， 在 传统 的 Q-learning 中 ， 考 虑 状态 序列 是 无 限 的 ， 所 以 


















并 没有 终 态 。 依 据 这 个 关系 ， 可 以 对 Q 函 数 的 取 值 做 迭代 改进 。 所 以 如 
果 我 们 有 一 个 四 元 组 (syahrys*D， 我 们 可 以 用 随机 梯度 下 降 法 的 思想 对 


Q 函 数 迭 代 前 后 的 平方 差距 (y 斑 Qtso) 做 一 次 梯度 下 降 。 


经 典 的 Q-learing 算 法 如 图 11.5 所 示 。 为 了 能 与 Deep Q-learning 
作对 比 ， 我 们 把 最 后 一 步 Q 函 数 更 新 为 等 价 的 描述 ， 令 为 + * 
max Qo0; 人 )， 并 对 (3, -O(5,.4,) 执行 一 次 梯度 下 降 ， 完 成 参数 更 新 。 





1 gO， 多 化 





-Qo 





图 11.5 经 典 Q-leaming 算 法 


图 11.6 是 深度 Q-leaming 算 法 ， 其 中 红色 部 分 为 和 传统 Q-learming 不 
同 的 部 分 。 
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图 11.6 深度 Qdleaming 算 法 


比较 这 两 个 算法 ， 我 们 不 难 发 现 深度 Q-learning 和 传统 的 Q-learning 
的 主体 框架 是 相同 的 ， 在 每 一 次 子 选 代 中 ， 都 是 按照 以 下 步骤 进行 。 


(1) 根据 当前 的 Q 函 数 执行 一 次 行动 or。 

(2) 获得 本 次 收益 nm 及 下 一 个 状态 si。 

(3) 以 某 种 方式 获得 一 个 四 元 组 (Sjs97577s5jn)。 
(4) 计算 yj。 


(5) D 完成 参数 更 新 。 





态 。 比 如 ， 有 是 这 样 对 观察 值 进行 处 理 
的 : 在 时 刻 观察 到 的 图 像 序列 及 对 应 动作 ,a ,wx 通过 一 个 
映射 函数 Wasaxs， 得 到 处 理 后 的 标准 状态 。 在 实际 的 应 用 
中 ，q 选 择 最 后 4 帧 图 像 ， 并 将 其 堆肥 起 来 。 


RILI 传统 Q-learning 与 深度 Q-learning 对 比 














方法 
PR 传统 Q-learning 深度 Q-learning 





个 小 的 概率 < 执 
行 一 次 随机 行动 ， 这 
根据 当前 的 O 函数 确定 性 | 其 实 是 MAB 算法 中 
地 选择 一 个 行动 的 Egreedy， 可 以 在 
探索 和 利用 之 间 做 
权衡 

(2) 获得 本 次 收 从 环境 获得 收益 ， 状 
Br BETS | 从 环境 直接 获得 赤 部 分 可 能 需要 对 
Sa 观察 信 进 行 处 理 
(3) 以 其 种 方式 





(1 ) 根据 当前 的 











假设 当前 迁 代 时 刻 是 +, 则 | 从 历史 记录 中 随机 
简单 地 令 jor 采样 一 个 / 





(apts) 





和 传统 Q-learning 




















(4) 计算 Fromm Qs) | 一 样 ,除了 需要 考虑 
有 限 长 的 状态 序列 
(5 ) 执行 梯度 下 Osa) = Olsa) + 和 传统 Q-learning 
& aly Asna) 一 样 
从 多 巴 腕 到 强化 学 习 
EA) ALABAMA ARM, HAMS. SMALE 
起 来 相距 但 出 人 意料 的 是 它们 在 本 质 上 其 实 具 有 很 多 共通 性 一 一 者 是 为 了 获得 延 





壕 到 来 的 奖励 。 当 我 们 获得 超过 期 望 的 回报 或 者 奖 局 时 ， 大 脑 会 释放 大 唱 多 巴 胶 ， 让 我 

们 感到 兴奋 和 愉悦 。 那 么 决定 多 巴 腕 的 释放 的 因素 是 什么 呢 ? 答案 是 奖励 和 预期 之 癌 的 

差 值 。 如 果 你 是 一 个 养 寞 物 的 人 ， 有 没有 观察 到 这 种 现象 ， 通 常 在 给 宠物 嚼 食 之 前 ， 它 

们 便 开始 分 泌 口 水 。 俄 国 科学 家 巴 普 洛 夫 便 做 过 这 样 一 个 试验 ， 在 给 狗 别 食 之 前 先 据 铃 

销 ， 训 练 狗 将 锥 响 和 食物 联系 在 一 起 ， 以 后 没有 看 到 食物 时 也 会 流 口水 。 随 着 检测 技术 

的 提高 ， 科 学 家 发 现 多 巴 腕 的 释放 并 非 来 源 于 奖励 本 身 ， 而 是 来 自 于 对 奖 局 的 预期 。 当 

现实 的 回报 高 于 预期 时 ， 会 促成 多 巴 胺 的 释放 ， 让 人 觉得 生活 美好 。 相 反 的 ， 如 果 现实 

的 回报 总 是 不 及 预期 ， 多 巴 有 的 分 滥 量 会 降低 ， 人 们 也 会 慢 慢 觉得 生活 一 成 不 变 ， 缺 乏 

乐趣 。 平 衡 预 基 与 回报 之 间 的 差 让 正 是 时 间 差分 学 习 Temporal Difference Leaming) 的 
目标 根据 现实 回报 和 预期 的 差 值 来 调整 价值 函数 的 值 ， 这 与 大 脑 分 泌 多 巴 胺 的 机 制 异 

曲 同 工 。 时 间 差分 学 习 可 以 用 于 优化 V-function 也 可 以 用 于 优化 Q-fonction， 而 本 节 介绍 的 
Qleaming 正 是 时 间 差分 算法 的 一 个 特例 。 









03 ”策略 梯度 






困难 。 MATIRA RIET EIA 续 i 
显得 不 太 合适 了 。 其 次 ， 包 括 深度 Q-learmning 在 内 的 大 多 数 强化 aH 
法 ， 都 没有 收敛 性 的 保证 ， 而 策略 梯度 (Policy Gradient) 则 没有 这 些 
问题 ， 它 可 以 无 差别 地 处 理 连续 和 离散 状态 空间 ， 同 时 保证 至 少 收敛 到 
一 个 局 部 最 优 解 。 


知识 点 
强化 学 习 ，Q-learning 


问题 什么 是 策略 梯度 ， 它 和 传统 Q-learning 有 什么 不 
同 ， 相 对 于 Q-learning 来 说 有 什么 优势 ? 


WEE: tok tke str 
分 析 与 解答 


在 策 咯 梯度 中 ， 我 们 考虑 前 后 两 个 状态 之 问 的 关系 为 
at ~ (Siuilsis0,)， 其 中 s,、sis1 是 相继 的 两 个 状态 ，a 是 ! 步 时 所 采取 的 行 
a p 是 环境 所 决定 的 下 个 时 刻 状 态 分 布 。 而 动作 a 的 生成 模型 ( 策 
略 ) Ja, ~ mala, |5,)， 其 中 巩 是 以 为 参 变量 的 一 个 分 布 ，a 从 这 个 分 布 









进行 采样 。 这 样 ， 在 同一 个 环境 下 ， 强 化 学 习 的 总 收益 函数 ， 


ROMEO 完全 就 是 ， 直 接 用 横 
和 Q-leaming 不 同 的 是 ， 策 略 梯度 并 不 估 
直接 生成 动作 q,。 这 有 效 避 免 了 在 过 
续 状 太空 间 上 最 大 化 Q 函 数 的 困难 。 同 时 ， 直 接 用 梯度 的 方法 优化 Rg) 
可 以 保证 至 消 是 局 部 收 倒 的 。 


要 使 用 梯度 法 ， 首 先 要 知道 如 何 计算 R(6) 的 导数 。 设 [为 某 一 次 0 到 了 
时 间 所 有 状态 及 行动 的 集合 〈 称 作 一 条 轨迹 ) ， 则 R(g)=E(r(D)， 其 中 函 


数 r 计 算 了 轨迹 的 得 分 。 我 们 有 R(OJ= EC(D)= jpr(Ddr， 所 以 








I 





V_R(O)=Vo |p (riir 
= fp (Vo log(pa(e))r(e)de 
=E(V, log(po(r))r(r)) 
=E(Ve lost 5.) + 4454) * POSI45559) * 
Pails). laris rE) 
= EDV logrs(a|s,) r€). 
(11.2) 


TERS P ERAS elas ARR AEAT ER, Alte 
Volog(P(selat's))=0。 每 个 轨迹 r 所 对 应 的 梯度 为 


z 
(2) = PV logt4(a,|s,) + r(r) 


(11.3) 


和 动作 。 这 样 ， 给 定 一 个 策略 
zm， 我 们 可 以 对 于 每 条 轨迹 ， 可 以 获得 其 收益 
rD 以 及 每 一 步 的 < 状 从 而 可 以 通过 式 〈11.2) 和 式 
QLD 获得 当前 参数 让 对 梯度 的 估计 。 一 个 简单 的 算法 描述 如 图 11.7 
所 示 。 


其 中 sk，ak 为 轨迹 r 上 每 一 步 的 
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图 11.7 策略 梯度 算法 


，YVeR(9) 实 际 上 是 一 个 随机 变量 g(D 的 期 望 。 我 们 对 g(D 进 行 
若干 次 独立 采样 ， 可 以 获得 对 其 期 望 的 一 个 估计 。 如 果 能 在 不 改变 期 望 
的 前 提 下 减少 g(D) 的 方差 ， 则 能 有 效 提高 对 其 期 望 估计 的 效率 。 我 们 注 


BA Eero lasls, D= [Voe dr =V fp) =0 

对 于 任 一 个 常量 D， 我 们 定义 一 个 强化 梯度 

+ (1)=| FV, =b) 

E (rosna sa} ) 易 知 ECg(D) -Ee (O), tet fi 


的 b， 可 以 获得 一 个 方差 更 小 的 sn， 而 维持 期 望 不 变 。 经 过 计算 可 以 得 
到 最 优 的 b 为 









EE Voog (a, |) rT)) 
BCD, Vlogra (oils))) 


Brent = 
a14) 


于 是 ， 得 到 一 个 改良 的 算法 ， 如 图 11.8 所 示 。 
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图 11.8 改良 的 策略 梯度 算法 


在 上 述 策略 梯度 算法 中 ， 通 过 估算 一 个 新 的 强化 梯度 可 以 有 效 缩减 
原来 梯度 的 方差 ， 从 而 提高 梯度 估算 的 效率 ， 那 么 如 何 推出 最 优 的 b 值 
We? 


: 
A =| 1 =b) 
我 们 辐 到 策 咯 榜 度 算法 ， (Errena eo 


pen TAE, Boo, MARAEA. RE 
成 ， 在 E(A)=0 的 前 提 下 ， 寻 找 最 优 的 常量 bp， 使 得 var(A(B-b)) 最 小 。 


rgmin(E((A(B—B)— ECAB))) 

rgmin(E(4B- E(4B) -b+ AY") 
argmin(b*E(A*)-2bE(A* B) + EAB- E(AB)y’)) 
argmin(6*E(4") -2bE(4°B)) 


定义 





argmin(var(A(B—b) 








£( (EL Proensa, Isa) 





a15) 
MR (11.4) 中 的 结果 。 


04 ”探索 与 利用 


在 和 环境 不 断交 互 的 过 程 中 ， 智 能 体 在 不 同 的 状态 下 不 停 ae 
获取 不 同 的 动作 的 反馈 。 探 索 (Exploration) 能 够 帮助 智能 
试验 获得 反馈 ， 利 用 (Exploitation) 是 指 利用 已 有 的 反馈 信息 选择 fair 
的 动作 。 因 此 如 何平 衡 探 索 和 利用 是 智能 体 在 交互 中 不 断 学 习 的 重要 问 
题 。 








知识 点 
强化 学 习 ， 探 索 ， 利 用 


问题 在 智能 体 与 环境 的 交互 中 ， 什 么 是 探索 和 利用 ? 
如 何平 衡 探索 与 利用 ? 


难度 : ekeke 


分 析 与 解答 


假设 我 们 开 了 一 家 叫 Surprise Me 的 饭馆 ， 客 人 来 了 不 用 点 餐 ， 而 是 
用 算法 来 决定 该 做 哪 道 菜 。 具 体 过 程 为 : 
(1) 客人 user = 1.…,T 依 次 到 达 人 饭馆 。 


(2) 给 客人 推荐 一 道 菜 ， 客 人 接受 则 留 下 吃饭 (Reward=1) ， 拒 
绝 则 离开 (Reward=0) 。 





(3) 记录 选择 接受 的 客人 总 数 total_reward。 

为 了 由 浅 入 深 地 解决 这 个 问题 ， 我 们 先 做 以 下 三 个 假设 。 

(1) 同一 道 菜 ， 有 时 候 会 做 得 好 吃 一 些 ( 概 率 =p) ， 有 时 候 会 难 
ee BES -p) ， 但 是 并 不 知道 概率 p 是 多 少 ， 只 能 通过 多 次 观测 
进行 统计 。 

(2) 不 考虑 个 人 口味 的 差异 ， 即 当 菜 做 得 好 吃 时 ， 客 人 一 定 会 留 
下 〈Reward=1) ; 当 菜 不 好 吃 时 ， 客 人 一 定 会 离开 (Reward=0) 。 


(3) 莱 好 吃 或 不 好 吃 只 有 客人 说 的 算 ， 饭 馆 是 事先 不 知道 的 。 


探索 阶段 : 通过 多 次 观测 推断 出 一 道 菜 做 得 好 吃 的 概率 。 如 果 一 道 
菜 已 经 推荐 了 k 遍 〈 获 取 了 Kk 次 反馈 ) ， 就 可 以 算出 菜 做 得 好 吃 的 概率 











B= 2 Reward, 
(11.6) 


如 果 推 荐 的 次 数 足够 多 ，k 足 够 大 ， 那 么 5 会 趋 近 于 真实 的 菜 做 得 好 
吃 的 概率 p。 


利用 阶段 : 已 知 所 有 的 菜 做 得 好 吃 的 概率 ， 决 定 该 如 何 推荐 ? 如 果 
每 道 菜 都 被 推荐 了 很 多 遍 ， 就 可 以 计算 出 每 道 菜 做 得 好 吃 的 概率 
后, 扬 ,…,Pw}， 于 是 只 需 推 荐 P 最 大 的 那 道 菜 。 


探索 和 利用 的 平衡 是 一 个 经 久 不 衰 的 问题 。 一 是 ， 探 索 的 代价 是 要 
不 停 地 拿 用 户 去 试 菜 ， 影响 客户 的 体验 ， 但 有 助 于 更 加 准确 的 估计 每 道 
菜 好 吃 的 概率 ， 二 是 ， 利 用 会 基于 目前 的 估计 拿 出 “最 好 的 ” 菜 来 服务 客 
户 ,但 目前 的 估计 可 能 是 不 准 的 因为 试 吃 的 人 还 不 够 多 ) 。 


如 何平 衡 探索 和 利用 呢 ? 可 以 使 用 E-greedy 算 法 ， 即 每 当 客人 到 来 
时 ， 先 以 E 的 概率 选择 探索 ， 从 N 道 菜 中 随机 选择 〈 概 率 为 E/N) 一 个 让 
客人 试 吃 ， 根 据 客人 的 反馈 更 新 菜 做 得 好 吃 的 概率 {所 ,所 ,…, Pw}， 然 
后 ， 以 1-€ 的 概率 选择 利用 ， 从 N 道 菜 { 所 ,所 ,…,Py} 中 选择 好 吃 的 概率 
最 高 的 菜 推荐 给 用 户 





E-greedy 算 法 也 存在 一 些 缺 点 ， 比 如 ， 在 试 吃 次 数 相同 的 情况 下 ， 

好 吃 和 难 吃 的 菜 得 到 试 吃 的 概率 是 一 样 的 ， 有 一 道 菜 持续 得 到 好 吃 的 反 
馈 ， 而 另 一 道 菜 持续 得 到 难 吃 的 反馈 ， 但 在 E-greedy 中 ， 探 索 两 道 菜 的 
概率 是 一 样 的 ， 均 为 GIN; 在 估计 的 成 功 概率 相同 的 情况 下 ， 试 吃 次 数 
多 的 和 试 吃 次 数 少 的 菜 得 到 再 试 吃 的 概率 是 一 样 的 ;假设 有 两 道 菜 ， 第 
一 道 菜 50 人 当中 30 个 人 说 好 ， 第 二 道 菜 5 个 人 当中 3 个 人 说 好 ， 虽 然 两 道 
菜 的 成 功 概率 都 是 60% (30/50 = 3/5) ， 但 显然 反馈 的 人 越 多 ， 概 率 估 
计 的 越 准 。 再 探索 时 ， 应 该 把 重心 放 在 试 吃 次 数 少 的 菜 上 。 


总 结 一 下 ， Egreedy 生 硬 地 将 选择 过 程 分 成 探索 阶段 和 利用 阶段 ， 
在 探索 时 对 所 有 物品 以 同样 的 概率 进行 探索 ， 并 不 会 利用 任何 历史 信 
息 ， 包括 某 道 亲 补 操 索 的 次 数 和 革 道 荣获 得 好 吃 反馈 的 比例 。 


不 妨 让 我 们 忘记 探索 阶段 和 利用 阶段 ， 仔 细 想 想 如 何 充分 地 利用 历 
史 信息 ， 找 到 最 值得 被 推荐 的 菜 。 








。 观测 1: 如 果 一 道 菜 已 经 被 推荐 了 k 遍 ， 同 时 获取 了 k 次 反馈 ， 就 可 
以 算出 菜 做 得 好 吃 的 概率 : 


(11.7) 
当 k 趋 近 正 无 穷 时 ，P 会 趋 近 于 真实 的 菜 做 得 好 吃 的 概率 po 


。 观测 2: 现实 当中 一 道 菜 被 试 吃 的 次 数 k 不 可 能 无 穷 大 ， 因 此 估计 出 
的 好 吃 的 概率 和 真实 的 好 吃 的 概率 p ”总 会 存在 一 个 差 值 A， 即 
Bb-A< pS P+. 


基于 上 面 两 个 观测 ， 我 们 可 以 定义 一 个 新 的 策略 : 每 次 推荐 时 ， 总 

是 乐观 地 认为 每 道 菜 能 够 获得 的 回报 是 疡 A， 这 便 是 著名 的 置信 区 间 上 

Jt (Upper Confidence Bound, UCB) 算法 。 最 后 只 需 解 决 一 个 问题 : 
计算 真实 的 概率 和 估计 的 概率 之 间 的 差 值 A。 


在 进入 公式 之 前 ， 让 我 们 直观 的 理解 影响 A 的 因素 。 对 于 被 选中 的 








菜 ， 多 获得 一 次 反馈 会 使 A 变 小 ， 最 终 会 小 于 其 他 没有 被 选中 的 菜 ; 对 
E a A 会 随 着 轮 数 的 增 大 而 增 大 ， 最 终 会 大 于 其 他 被 选中 
的 菜 。 


下 面 正式 地 介绍 如 何 计算 A， 首 先 介 绍 Chernoff-Hoeffding Bound: 
假设 Reward,,.…Reward。 是 在 [0,1] 之 间 取 值 的 独立 同 分 布 随机 变量 ， 用 
R Demari, 

了 ”mn 表示 样本 均值 ， 用 p 表示 分 布 的 均值 ， 那 么 有 


Plp-nl< >12, 


(11.8) 
sa om, 其 中 7 表示 有 T 个 客人 ，n 表 示 菜 被 吃 过 的 次 
rha- os [=] 4 
1.9) 
am ees ae ee 


e 当 T=2 时 ， 成 立 的 概率 为 0.875; 
当 T=3 时 ， 成 立 的 概率 为 0.975; 
o 当 T=4 时 ， 成 立 的 概率 为 0.992。 








ROY 
的 USKE” BEATE Ja DESEE AA HL 
ae 既 利用 到 了 当前 回报 的 信息 ， 也 使 用 "置信 区 间 上 界 " 进 行 了 探 








“总 结 与 扩展 


如 果 读 者 对 探索 和 利用 问题 有 兴趣 ， 可 以 继续 探究 一 下 基于 贝 叶 斯 
思想 的 Thompson Sampling， 和 考虑 上 下 文 信息 的 LinUCB。 


第 12 章 “集成 学 习 





面 对 一 个 机 器 学 习 问题 ， 通 常 有 两 种 策略 。 一 种 是 研发 人 员 尝试 各 
种 模型 选择 其 中 表现 最 好 的 模型 做 重 优化 。 这 种 策略 类 似 于 奥 
运 会 比赛 ， 通 过 强 强 竞争 来 选拔 最 优 的 运动 员 ， 并 逐步 提高 成 绩 。 另 一 
种 重要 的 策略 是 集 各 家 之 长 eb ihe 
， 然 后 综合 考虑 ， 得 到 核心 ， 是 

统一 成 一 个 最 终 的 决策 。 使 用 这 类 策略 的 机 器 习 方 法 统称 为 
其 中 的 每 个 单独 的 . 


个 自 皮 匠 ， 顶 一 个 诸 
绍 的 很 多 复杂 模型 可 以 认为 是 “ 
M RRE ERRENTE, R 把 多 ce 
来 ， 其 决策 能 力 很 有 可 能 超过 "“ 而 如 何 将 这 些 基 分 类 器 集成 起 
来 ， 就 是 本 章 要 讨论 的 重点 。 


集成 学 习 不 仅 在 学 界 的 研究 热度 不 减 ， 在 业界 和 众多 机 器 学 习 竞赛 
中 也 有 非常 成 功 的 应 用 。 例 如 在 Kaggle 竞 赛 中 所 向 披 麻 的 XGBoost， 就 
是 成 功 应 用 集成 学 习 思 想 的 一 个 例子 。 




























01 集成 学 习 的 种 类 


集成 学 习 是 一 大 类 模型 融合 策略 和 方法 的 统称 ， 其 中 包含 多 种 集成 
ae 本 题 希 望 考察 的 是 读者 对 于 各 主要 集成 学 习 方 法 的 基本 了 
解 程度 。 


Boosting，Bagging， 基 分 类 器 


问题 集成 学 习 分 哪 几 种 ? 他 们 有 何 异 同 ? 


难度 : kortose 
分 析 与 解答 


= Boosting 
Boosting 方 法 训练 基 分 类 器 时 采用 串 行 的 方式 ， 各 个 基 分 类 器 之 间 
有 依赖 。 
它 的 基本 思路 是 将 基 分 类 器 层 层 登 加 ， 每 一 层 在 训练 的 时 候 ， 对 前 


一 层 基 分 类 器 分 错 的 样本 ， 给 予 更 高 的 权重 。 测 试 时 ， 根 据 各 层 分 类 器 
的 结果 的 加 权 得 到 最 终结 果 。 












过 程 〈 见 图 12.1) ， 我 们 
学 习 的 时 候 ， 我 们 会 记 分 
些 错误 ， ] 的 印象 会 很 深 。 第 

针对 犯 过 知识 加 强 学 习 ， 以 减少 类 似 的 错 
复 ， 直 到 犯错 误 的 次 数 减少 到 很 低 的 程度 。 











图 12.1 Boosting FEBA: 选 代 式 学 习 


m Bagging 


Bagging 与 Boosting 的 串 行 训练 方式 不 同 ，Bagging 方 法 在 训练 过 程 
中 ， 各 基 分 类 器 之 间 无 强 依赖 ， 可 以 进行 并 行 训练 。 其 中 很 著名 的 算法 
之 一 是 基于 决策 树 基 分 类 器 的 随机 森林 (Random Forest) 。 为 了 让 基 分 
类 器 之 间 互 相 独 立 ， 将 训练 集 分 为 若干 子 集 ( 当 训练 样本 数量 较 少时 ， 
子 集 之 间 可 能 有 交 咎 ) 。Bagging 方 法 更 像 是 一 个 集体 决策 的 过 程 ， 每 
个 个 体 都 进行 单独 学 习 ， 学 习 的 内 容 可 以 相同 ， 也 可 以 不 同 ， 也 可 以 部 
分 重合 。 但 由 于 个 体 之 间 存在 差异 性 ， 最 终 做 出 的 判断 不 会 完全 一 致 
在 最 终 做 决策 时 ， 每 个 个 体 单独 作出 判断 ， 再 通过 投票 的 方式 做 出 最 后 
的 集体 决策 〔 见 图 12.2) 。 





图 12.2 Bagging 主 要 思想 ， 集 体 投票 决策 


RNP M a ee n 

ing 方 ; 。 基 分 类 器 ， 有 时 又 被 称 为 能 分 因为 基 分 类 
FRUAR, 基 分 类 器 的 错误 ， 是 
PTENT 分 类 器 的 表达 能 力 有 限 导致 的 
现在 训练 误差 不 收敛 。 方 差 是 由 于 fan 于 样本 分 布 过 于 敏感， 导致 
在 训练 样本 数 较 少时 ， 产 生 过 拟 合 


Boosting 方 法 是 通过 逐步 聚焦 于 基 分 类 器 分 错 的 样 
类 器 的 偏差 。Bagging 方 法 则 是 采取 分 而 治之 的 策略 ， 通 E 
多 次 采样 ， 并 分 别 训练 出 多 个 不 同 模型 ， 然 后 做 综合 ， 来 减 小 集成 分 类 
器 的 方差 。 假 设 所 有 基 分 类 器 出 错 的 概率 是 独立 的 ， 在 某 个 测试 样本 
上 ， 用 简单 多 数 投票 方法 来 集成 结果 ， 超 过 半数 基 分 类 器 出 错 的 概率 会 
随 着 基 分 类 器 的 数量 增加 而 下 降 。 


Fl, Model 1、Model 2、Model 3 都 是 
单独 来 看 ， 它 们 的 决策 边界 都 很 曲 

3 之 后 的 模型 〔 红 线 所 示 ) 的 决策 边界 就 比 各 

EAT ， 这 是 由 于 集成 的 加 权 投票 方法 ， 减 小 了 方差 。 
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图 12.3 “Bagging 算 法 的 一 个 示意 图 


RAS 


ERMEZ (Leo Breiman) 是 20 世 纪 著 名 的 统计 学 家 ， 他 是 加 州 大 学 伯克利 分 校 
教授 和 美国 科学 院 院士 。 他 是 CART 的 发 明 虱 之 一 ，Bagging 方 法 和 随机 森林 的 提出 者 - 
虽然 已 经 于 2005 年 仙 逝 ， 但 他 每 年 的 论文 被 引用 次 数 仍 在 稳步 增长 ， 仅 仅 2017 年 就 有 

万 一 十 余 次 引用 ， 可 以 说 他 一 直 活 在 统计 、 机 器 学 习 研 究 者 们 心中 。 


布雷 曼 有 着 传奇 的 一 生 : 


布雷 曼 的 本 科 是 在 以 高 门 权 著 称 的 加 州 理工 物理 系 度 过 的 ， 大 一 他 的 成 绩 很 好 ， 也 
剑 到 了 奖学金 。 然 而 大 二 开始 ， 他 对 课程 丧失 了 兴趣 ， 一 直到 大 四 ， 成 绩 一 直 在 及 格 线 
挣扎 。 学 物理 不 成 ， 他 赁 借 着 数学 天 赋 ，1954 年 在 加 州 大 学 伯克利 分 校 获得 了 数学 博士 
学 位 。 然 而 ， 他 接 下 来 却 并 没有 从 事 学 术 ， 而 且 跑 去 参军 了 。 后 来 他 去 加 州 大 学 洛杉矶 


ARSEBM, ESSE RAMEE, MARMARA, DETE 
25 年 。 








最 后 ， 引 用 两 段 布雷 晶 荣 退 后 ，1994 年 时 在 伯克利 统计 系 毕业 时 的 讲话 : 


“试问 其 他 学 科 诸 如 物理 学 、 数 学 和 工程 学 的 学 生 ，25 年 后 会 和 现在 有 何 区 别 ， 答 
案 很 简单 ， 设 哈 区 别 咀 。 和 毕竟 两 千 多 年 前 ， 癌 基 米 德 就 在 研究 物理 ， 微 积分 和 工程 ，25 
年 的 变化 又 等 什么 呢 。 但 迅速 发 展 的 统计 学 不 一 样 ， 谁 也 不 知道 25 年 后 会 是 什么 样子 。” 


“事实 上 ， 我 并 没有 学 过 任何 统计 学 的 课程 。 我 的 朋友 、 同 事 ， 曾 任 斯 坦 福 大 学 统 
没有 ， 他 原本 是 一 位 实验 物理 。 | 输 -图 基 曾 经 是 研究 纯 数 
许多 其 他 杰出 的 统计 学 家 ， 也 是 因缘 际会 ， 玉 到 






统计 学 这 条 大 船上 的 。” 


晃 又 快 过 去 25 年 了 ， 如 今 机 器 学 习 领 域 正如 文中 当年 的 统计 学 一 样 ， 迅 速 发 展 、 
TEMA. ORES EREDAR. AT RAEI, REEN 


02 ”集成 学 习 的 步骤 和 例子 


场景 描述 
虽然 集成 学 习 的 具体 算法 和 策略 各 不 相同 ， 但 都 共享 同样 的 基本 步 
又 。 本 小 节 希 望 考察 读者 对 于 集成 学 习 基 本 步 又 的 理解 ， 并 希望 结合 具 
体 的 集成 学 习 算法 ， 详 细 解 读 集成 学 习 的 具体 过 程 。 
知识 点 
集成 学 习 ，Adaboost， 梯 度 提升 决策 树 
问题 ”集成 学 习 有 哪些 基本 步骤 ? 请 举 几 个 集成 学 习 的 
例子 


WERE: ederre 


分 析 与 解答 
集成 学 习 一 般 可 分 为 以 下 3 个 步骤 。 
(1) 找到 误差 互相 独立 的 基 分 类 器 。 
(2) 训练 基 分 类 器 。 
(3) 合并 基 分 类 器 的 结果 。 
合并 基 分 类 器 的 方法 有 voting 和 stacking 两 种 。 前 


式 ， 将 获得 最 多 选票 的 结果 作为 最 终 的 结果 。 后 者 是 用 串 行 的 方式 ， 把 
前 一 个 基 分 类 器 的 结果 输出 到 下 一 个 分 类 器 ， 将 所 有 基 分 类 器 的 箱 出 结 
果 相 加 《或 者 用 更 复杂 的 算法 | 比如 把 各 基 分 类 器 的 输出 作为 特 
征 ， 使 用 逻辑 回归 作为 融合 模型 进行 最 后 的 结果 预测 ) 作为 最 终 的 输 
出 。 以 Adaboost 为 例 ， 其 基 分 类 器 的 训练 和 合并 的 基本 步骤 如 下 。 


(1) 确定 基 分 类 器 : 这 里 可 以 选取 ID3 决 策 树 作为 基 分 类 器 。 事 实 
上 ， 任 何 分 类 模型 都 可 以 作为 基 分 类 器 ， 但 树 形 模型 由 于 结构 简单 且 较 
易 产 生 随机 性 所 以 比较 常用 。 


(2) 训练 基 分 类 器 : 假设 训练 集 为 fkiyihi=1…N， 其 中 yE 
全 11}， 并 且 有 T 个 基 分 类 器 ， 则 可 以 按照 如 下 过 程 来 训练 基 分 类 器 。 








。 初始 化 采样 分 布 Di(D: 
。 令 t=1 2…, 工 循环 
o A 按照 D, 分 布 ， 采 样 出 子 集 





IN: 





= {x,y} fsb. Ny 
o Ph 
DSA) # 91D.) 
o 计算 /的 错误 率 : “ N, » HHIH 
函数 ; 
= log t=) 
o 计算 基 分 类 器 权重 ” a 
。 设 置 下 一 次 采样 


ponn Aa ho) #91; 





DDs 
en ASY 

(12.1) 
并 将 它 归 一 化 为 一 个 概率 分 布 函数 。 


(3) 合并 基 分 类 器 : 给 定 一 个 未 知 样本 z， 输 出 分 类 结果 为 加 权 投 


T 
票 的 结 Sion Da) 

从 Adaboost 的 例子 中 我 们 可 以 明显 地 看 到 Boosting 的 思想 ， 对 分 类 
正确 的 样本 降低 了 权重 ， 对 分 类 错误 的 样本 升 高 或 者 保持 权重 不 变 。 在 
最 后 进行 模型 融合 的 过 程 中 ， 也 根据 错误 率 对 基 分 类 器 进行 加 权 融 合 。 
错误 率 低 的 分 类 器 拥有 更 大 的 “话语 权 ”。 


另 一 个 非常 流行 的 模型 是 梯度 提升 决策 树 ， 其 核心 思想 是 ， 每 一 棵 
树 学 的 是 之 前 所 有 树 结论 和 的 残 差 ， 这 个 残 差 就 是 一 个 加 预测 值 后 能 得 
真实 值 的 累加 量 。 


我 们 以 一 个 视频 网 站 的 用 户 画像 为 例 ， 为 了 将 广告 定向 投放 给 指定 
年 龄 的 用 户 ， 视 频 网 站 需要 对 每 个 用 户 的 年 龄 做 出 预测 。 在 这 个 问题 
中 ， 每 个 样本 是 一 个 已 知性 别 /年 龄 的 用 户 ， 而 特征 则 包括 这 个 人 访问 
的 时 长 、 时 段 、 观 看 的 视频 的 类 型 等 。 


例如 用 户 A 的 真实 年 龄 是 25 岁 ， 但 第 一 棵 决策 树 的 预测 年 龄 是 22 

差 了 3 岁 ， 即 残 差 为 3。 那 么 在 第 二 棵 树 里 我 们 把 A 的 年 龄 设 为 3 岁 去 
学 习 ， 如 果 第 二 棵 树 能 : EIBAR EIB RM T N, 那 两 棵 树 的 结果 相 加 就 
可 以 得 到 4 的 真实 年 龄 ; 如 果 第 二 棵 树 风 
的 残 ， 第 三 棵 树 里 A 的 年 龄 就 变 成 -2 P 
学 习 ， 就 是 GBDT 中 Gradient Boosted 所 表达 的 意思 。 









03 ” 基 分 类 器 


场景 描述 





基 分 类 器 的 选择 是 集成 学 习 主要 步骤 中 的 第 一 步 ， 也 是 非常 重要 的 
一 步 。 到 底 选 择 什么 样 的 基 分 类 器 ， 为 什么 很 多 集成 学 习 模型 都 选择 决 
策 树 作为 基 分 类 器 ， 这 些 都 是 需要 明确 的 问题 ， 做 到 知 其 然 ， 也 知 其 所 
以 然 。 





知识 点 
问题 1 常用 的 基 分 类 器 是 什么 ? 


难度 : ete de sey 


分 析 与 解答 


最 常用 的 基 分 类 器 是 决策 树 ， 主 要 有 以 下 3 个 方面 的 原因 。 


(1) 决策 树 可 以 较为 方便 地 将 样本 的 权重 整合 到 训练 过 程 中 ， 而 
不 需要 使 用 过 采样 的 方法 来 调整 样本 权重 。 


(2) 决策 树 的 表达 能 力 和 泛 化 能 力 ， 可 以 通过 调节 树 的 层 数 来 做 


(3) 数据 样本 的 扰动 对 于 决策 树 的 影响 较 大 ， 因 此 不 同 子 样本 集 


合生 成 的 决策 树 基 分 类 器 随机 性 较 大 ， 这 样 的 “不 稳定 : ”更 适合 作 
为 基 分 类 器 。 此 外 ， 在 决策 树 节点 分 裂 的 时 候 ， 随 机 地 选择 一 个 特征 子 
集 ， 从 中 找 出 最 优 分 裂 属性 ， 很 好 地 引入 了 随机 性 。 


è ， 络 模型 也 适合 作为 基 分 类 器 ， 主 要 由 于 神经 
网 络 模型 也 比较 “不 稳定 "， 而 且 还 可 以 通过 调整 神经 元 数量 连接 方 
式 、 网 络 层 数 、 初 始 权 值 等 方式 引入 随机 性 。 








问题 2 可 盏 将 随机 森林 中 的 基 分 类 器 ， 由 决策 树 普 换 为 
线性 分 类 器 或 K- 近 邻 ? 请 解释 为 什么 ? 


难度 : deters te 


分 析 与 解答 








随机 森林 属于 Bagging 类 的 集成 学 习 。Bagging 的 主要 好 处 是 集成 后 
的 分 类 器 的 方差 ， 比 基 分 类 器 的 方差 小 。Bagging 所 采用 的 基 分 类 器 ,， 
最 好 是 本 身 对 样本 分 布 较为 敏感 的 〈 即 所 谓 不 稳定 的 分 类 器 ) ， 这 样 









Bagging 才 能 有 用 武之 地 。 线 性 分 类 器 或 者 K- 近 邻 都 是 较为 稳定 的 分 类 
器 ， 本 身 方差 就 所 以 以 它们 为 基 分 类 器 使 用 Bagging 并 不 能 在 原 
有 基 分 类 器 的 基础 上 获得 更 好 的 表现 ， 甚 至 可 能 因为 Bagging 的 采样 ， 


而 导致 他 们 在 训练 中 更 难 收 化 ， 从 而 增 大 了 集成 分 类 器 的 偏 莽 


04 ”偏差 与 方差 


我 们 经 常用 过 拟 合 、 欠 拟 合 来 定性 地 描述 模型 是 否 很 好 地 解决 了 特 
定 的 问题 。 从 定量 的 角度 来 说 ， 可 以 用 模型 的 偏差 (Bia) 与 方差 
(Variance) 来 描述 模型 的 性 能 。 集 成 学 习 往往 能 够 “神奇 地 提升 弱 分 
类 器 的 性 能 。 本 节 将 从 偏差 和 方差 的 角度 去 解释 这 背后 的 机 理 。 


什么 是 模型 的 偏差 和 方差 ，Boosting 和 Bagging 方 法 与 偏差 和 方差 的 
关系 是 什么 ， 通 过 回答 这 些 问题 ， 我 们 将 介绍 如 何 根据 偏差 和 方差 这 两 
个 指标 来 指导 模型 的 优化 和 改进 。 





知识 点 


偏差 ， 方 差 ， 重 采样 ，Boosting，Bagging 


问题 1 什么 是 偏差 和 方差 ? 


难度 : deters te 
分 析 与 解答 
在 有 监督 学 习 中 ， 模 型 的 泛 化 误差 来 源 于 两 个 方面 一 一 偏差 和 方 
差 ， 具 体 来 讲 偏差 和 方差 的 定义 如 下 : 


偏差 指 的 是 由 所 有 采样 得 到 的 大 小 为 m 的 训练 数据 集训 练 出 的 所 有 
模型 的 输出 的 平均 值 和 真实 模型 输出 之 间 的 偏差 。 偏 差 通常 是 由 于 我 们 





对 学 习 算法 做 了 错误 的 假设 所 导致 的 ， 比 如 真实 模型 是 某 个 二 次 函数 ， 
人 由 偏差 带 来 的 误差 通常 在 训练 误差 上 就 能 
现 出 来 。 


方差 指 的 是 由 所 有 采样 得 到 的 大 小 为 m 的 训练 数据 集训 练 出 的 所 有 
模型 的 输出 的 方差 。 方 差 通常 是 由 于 模型 度 相对 于 训练 样本 数 m 
过 高 导致 的 ， 比 如 一 共有 100 个 训练 样 型 是 阶 数 不 大 
于 200 的 多 项 式 函数 。 由 方差 带 来 的 误差 通常 体现 在 测试 误差 相对 于 训 
练 误差 的 增 量 上 。 


上 面 的 定义 很 准确 ， 但 不 够 直观 ， 为 了 更 清晰 的 理解 偏差 和 方差 ， 
我 们 用 一 PRIRA A 步 描述 这 二 NRE pma 











i 远 代 x 
小 为 % 的 训练 样 上 集合 对 同一 de ears 相当 
PRIA neat MEA A a 
左上 角 的 结果 ， 射 击 结果 义 准确 又 集中 ， 说 明 模 型 的 偏差 和 方差 者 很 
小 ;右上 图 虽然 射击 结果 的 中 心 在 邯 心 周围 ， 但 分 布 比较 分 散 ， 说 明 模 
型 的 偏差 较 小 但 方差 较 大 ， 同 理 ， 左 下 图 说 明 模 型 方差 说 小 ， 偏 差 较 
大 ， 右 下 图 说 明 模 弄 方差 较 大 ， 偏 差 也 较 大 。 
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图 124 i 意图 


问题 2 如 何 从 减 小 方差 和 偏差 的 角度 解释 Boosting 和 
Bagging 的 原理 ? 


HEEE: dokker 
分 析 与 解答 


简单 回答 这 个 问题 就 是 : Bagging 能 够 提高 弱 分 类 器 性 能 的 原因 是 
降低 了 方差 ，Boosting 能 够 提升 弱 分 类 器 性 能 的 原因 是 降低 了 偏差 。 为 
什么 这 么 讲 呢 ? 


首先 ，Bagging 是 Bootstrap Aggregating 的 简称 ， 意 思 就 是 再 抽 
样 ， Paste SEK 上 训练 出 来 的 模型 取 平 均 。 


假设 有 n 个 随机 变量 ， 方 差 记 为 咯 ， 两 两 变量 之 间 的 相关 性 为 p， 
X 


则 mn 个 随机 变量 的 均值 的 方差 为 p*a? +(I—p)*o? /mn。 在 随机 变量 
KEMIA, WEILER, WARRANT 
原来 的 Lin。 


再 从 模型 的 角度 理解 这 个 问题 ， 对 n 个 独立 不 相关 的 模型 的 预测 结 
果 取 平均 ， 方 差 是 原来 单个 模型 的 Vn。 这 个 描述 不 其 严谨 ， 但 原理 已 
经 讲 得 很 清楚 了 。 当 然 ， 模 型 之 问 不 可 能 完全 独立 。 为 了 追求 模型 的 独 
立 性 ， 诸 多 Bagging 的 方法 做 了 不 同 的 改进 ， 比 如 在 随机 森林 算法 中 ， 
每 次 选取 节点 分 裂 属性 时 ， 会 随机 抽取 一 个 属性 子 集 ， 而 不 是 从 所 有 属 
属性 ， 这 就 是 为 了 避免 弱 分 类 器 之 问 过 强 的 相关 性 。 通 过 
训练 集 的 重 采 样 也 能 够 带 来 弱 分 类 器 之 问 的 一 定 独立 性 ， 从 而 降低 
Bagging 后 模型 的 方差。 


再 看 Boosting， 大 家 应 该 还 记得 Boosting 的 训练 过 程 。 在 训练 好 一 
个 弱 分 类 器 后 ， 我 们 需要 计算 弱 分 类 器 的 错误 或 者 残 差 ， 作 为 下 一 个 分 
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所 以 并 不 会 对 降低 方差 有 作用 。 
偏差 、 方 差 和 模型 复杂 度 的 关系 如 图 12.5 所 示 。 不 
bh ead SEMEL, FERS ty 
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图 12.5 泛 化 误差 偏差、 方差 和 模型 复杂 度 的 关系 


05 ”梯度 提升 决策 树 的 基本 原理 


梯度 提升 决策 树 (Gradient Boosting Decision Tree, GBDT) 是 
Boosting 算 法 中 非常 流行 的 模型 ， 也 是 近来 在 机 器 学 习 竞 赛 、 商 业 应 用 
中 表现 都 非常 优秀 的 模型 DT 非常 好 地 体现 了 “从 错误 中 学 习 " 的 理 
念 ， 基 于 决策 树 预 测 的 残 差 进行 迭代 的 学 习 。GBDT 几 乎 是 算法 工程 师 


的 必 备 技能 ， 也 是 机 器 学 习 面试 中 常 考察 的 内 容 。 











知识 点 
GBDT, CART 


问题 1 GBDT 的 基本 原理 是 什么 ? 


难度 : deedee yr 
分 析 与 解答 


本 章 第 一 节 提 到 Bagging 和 Boosting 丙 大 集成 学 习 的 框架 。 相 比 于 
Bagging 中 各 个 弱 分 类 器 可 以 独立 地 进行 训练 ，Boosting 中 的 弱 分 类 器 需 
要 依次 生成 。 在 每 一 轮 迭 代 中 ， 基 于 已 生成 的 弱 分 类 器 集合 〔 即 当前 模 
型 ) 的 预测 结果 ， 新 的 弱 分 类 器 会 重点 关注 那些 还 没有 被 正确 预测 的 样 
本 。 


Gradient Boosting 是 Boosting 中 的 一 大 类 算法 ， 其 基本 思想 是 根据 当 
前 模型 损失 函数 的 负 梯 度 信息 来 训练 新 加 入 的 弱 分 类 器 ， 然 后 将 训练 好 


的 弱 分 类 器 以 累加 的 形式 结合 到 现 有 模型 中 。 算法 1 描述 了 Gradient 
Boosting 算 法 的 基本 流程 ， 在 每 一 轮 兴 代 中 ， 首 先 计算 出 当前 模型 在 所 
有 样本 上 的 负 梯 度 ， 然 后 以 该 值 为 目 一 个 新 的 弱 分 类 器 进行 拟 合 
并 计算 出 该 弱 分 类 器 的 权重 ， 最 终 实现 对 模型 的 更 新 。Gradient 
Boosting 算 法 的 伪 代 码 如 图 12.6 所 示 。 
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7: end For 

8: end Algorithm 


图 12.6 Gradient Boosting 算 法 全 代码 


采用 决策 树 作为 弱 分 类 器 的 Gradient Boosting 算 法 被 称 为 GBDT， 有 
时 又 被 称 为 MART (Multiple Additive Regression Tree) 。GBDT 中 使 用 
的 决策 树 通常 为 CART。 


用 一 个 很 简单 的 例子 来 解释 一 下 GBDT 训 练 的 过 程 ， 如 图 12.7 所 
示 。 模 型 的 任务 是 预测 一 个 人 的 年 龄 ， 训 练 集 只 有 A、B、C、D ”4 个 
人 ， 他 们 的 年 龄 分 别 是 14、16、24、26， 特 征 包括 了 “月 购物 金额 “上 
网 时 长 上 网 历史 ”等 。 OE a ie Foal ill 过 
策 树 相同 ， ER, 我 们 只 进 和 


RHE LDL ime aah 2 AEH, H 
到 残 差 收敛 到 某 个 阅 值 以 下 ， 或 者 树 的 总 数 达 到 某 个 上 限 为 止 。 
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AES 8 qa RIB: 8-0, D0 
| 每 天 上 网 时 长 大 于 1 小 时 
i RH: 4-0, C0 


图 12.7 GBDT 的 一 个 例子 


由 于 GBDT 是 利用 残 差 训练 的 ， 在 预测 的 过 程 中 ， 我 们 也 需要 把 所 
有 树 的 预测 值 加 起 来 ， 得 到 最 终 的 预测 结果 


GBDT 使 用 梯度 提升 (Gradient Boosting) 作为 训练 方法 ， 而 在 逻辑 
回归 或 者 神经 网 络 的 训练 过 程 中 往往 采用 梯度 下 降 (Gradient Descent) 
作为 训练 方法 ， 二 者 之 间 有 什么 联系 和 区 别 吗 ? 


问题 2 梯度 提升 和 梯度 下 降 的 区 别 和 联系 是 什么 ? 


难度 : do detest 
分 析 与 解答 


表 12.1 是 梯度 提升 算法 和 梯度 下 降 算法 的 对 比 情况 。 可 以 发 现 ， 两 
者 都 是 在 每 一 轮 选 代 中 ， 利 用 损失 函数 相对 于 模型 的 负 梯度 方向 的 
来 对 当前 模型 进行 更 新 ， 只 不 过 在 梯度 下 降 中 ， 模 型 是 以 参数 化 形式 表 





示 ， 从 而 模型 的 更 新 等 价 于 参数 的 更 新 。 而 在 梯度 提升 中 ， 模 型 并 不 需 
要 进行 参数 化 表示 ， 而 是 直接 定义 在 函数 空间 中 ， 从 而 大 大 扩展 了 可 以 
使 用 的 模型 种 类 。 


表 12.1 梯度 提升 算法 和 梯度 下 降 算法 的 对 比 
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问题 3 GBDT 的 优点 和 局 限 性 有 哪些 ? 


WERE: dered rear 


分 析 与 解答 


里 优点 
(1) 预测 阶段 的 计算 速度 快 ， 树 与 树 之 间 可 并 行 化 计算 。 


(2) 在 分 布 稠密 的 数据 集 上 ， 泛 化 能 力 和 表达 能 力 都 很 好 ， 这 使 
得 GBDT 在 Kaggle 的 众多 竞赛 中 ， 经 常 名 列 榜首 。 


(3) 采用 决策 树 作为 弱 分 类 器 使 得 GBDT 模 型 具有 较 好 的 解释 性 
和 和 鲁 棒 性 ， 能 够 自动 发 现 特征 间 的 高 阶 关系 ， 并 且 也 不 需要 对 数据 进行 
特殊 的 预 处 理 如 归 一 化 等 。 


m RRE 








(1) GBDT 在 高 维 稀疏 的 数据 集 上 ， 表 现 不 如 支持 向 量 机 或 者 神 
经 网 络 。 


(2) GBDT 在 处 理 文本 分 类 特征 问题 上 ， 相 对 其 他 模型 的 优势 不 
如 它 在 处 理 数值 特征 时 明显 。 


(3) 训练 过 程 需要 串 行 训练 ， 只 能 在 决策 树 内 部 采用 一 些 局 部 并 
行 的 手段 提高 训练 速度 。 


06 XGBoost 与 GBDT 的 联系 和 区 别 


XGBoost 是 陈 天 奇 等 人 开发 的 一 个 开源 机 器 学 习 项 目 ， 高 效 地 实现 
了 GBDT 算 法 并 进行 了 算法 和 工程 上 的 许多 改进 ， 被 广泛 应 用 在 Kaggle 
竞赛 及 其 他 许多 机 器 学 习 竞 赛 中 并 取得 了 不 错 的 成 绩 。 我 们 在 使 用 
XGBoost 平 台 的 时 候 ， 也 需要 熟悉 XGBoost 平 台 的 内 部 实现 和 原理 ， 这 
样 才能 够 更 好 地 进行 模型 调 参 并 针对 特定 业务 场景 进行 模型 改进 。 





知识 点 
XGBoost，GBDT， 决 策 树 


问题 XGBoost 与 GBDT 的 联系 和 区 别 有 哪 些 ? 


难度 友 克 克 妆 六 
分 析 与 解答 


原始 的 GBDT 算 法 基于 经 验 损失 函数 的 负 梯度 来 构造 新 的 决策 树 ， 
只 是 在 决策 树 构建 完成 后 再 进行 剪 枝 。 而 XGBoost 在 决策 树 构建 阶段 就 
加 入 了 正则 项 ， 即 


L = FIO EDENES) 


(42.2) 


其 中 Fi_1(xi) 表 示 现 有 的 -1 棵 树 最 优 解 。 关 于 树 结构 的 正则 项 定义 为 
3 
rae 


(12.3) 
其 中 7 为 叶子 节点 个 数 ，w 表 示 第 个 叶子 节点 的 预测 值 。 对 该 损失 函数 
在 F,_, 处 进行 二 阶 泰勒 展开 可 以 推导 出 
2 A saw err 
a24) 
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serna aaa, I AOD, 
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假设 决策 树 的 结构 已 知 ， 通 过 令 损失 函数 相对 于 wj 的 导数 为 0 可 以 
求 出 在 最 小 化 损失 函数 的 情况 下 各 个 叶子 节点 上 的 预测 值 





(12.5) 


然而 从 所 有 的 树 结构 中 寻找 最 优 的 树 结构 是 一 个 NP-hard 问 题 ， 因 
此 在 实际 中 往往 采用 贪心 法 来 构建 出 一 个 次 优 的 树 结构 ， 基 本 思想 是 从 
根 节点 开始 ， 每 次 对 一 个 叶子 节点 进行 分 裂 ， 针 对 每 一 种 可 能 的 分 裂 ， 
根据 特定 的 准则 选取 最 优 的 分 裂 。 不 同 的 决策 树 算法 采用 不 同 的 准则 ， 
如 IC3 算 法 采用 信息 增益 ，C4.5 算 法 为 了 克服 信息 增益 中 容易 偏向 取 值 
较 多 的 特征 而 采用 信息 增益 比 ，CART 算 法 使 用 基尼 指数 和 平方 误差 ， 
XGBoost 也 有 特定 的 准则 来 选取 最 优 分 裂 。 


通过 将 预测 值 代 入 到 损失 函数 中 可 求 得 损失 函数 的 最 小 值 














(12.6) 
容易 计算 出 分 裂 前 后 损失 函数 的 差 值 为 
GG G,+G,) 


Hit4 H,+å H,+H,+A 


Gain = 





(2.7) 


XGBoost 采 用 最 大 化 这 个 差 值 作为 准则 来 进行 决策 树 的 构建 ， 通 过 
遍历 所 有 特征 的 所 有 取 值 ， 寻 找 使 得 损失 函数 前 后 相差 最 大 时 对 应 的 分 
裂 方式 。 此 外 ， 由 于 损失 函数 前 后 存在 差 值 一 定 为 正 的 限制 ， 此 时 y 起 
到 了 一 定 的 预 剪 枝 效果 。 


除了 算法 上 与 传统 的 GBDT 有 一 些 不 同 外 ，XGBoost 还 在 工程 实现 
上 做 了 大 量 的 优化 。 总 的 来 说 ， 两 者 之 间 的 区 别 和 联系 可 以 总 结 成 以 下 
几 个 方面 。 

(1) GBDT 是 机 器 学 习 算法 ，XGBoost 是 该 算法 的 工程 实现 。 


(2) 在 使 用 CART 作 为 基 分 类 器 时 ，XGBoost 显 式 地 加 入 了 正则 项 
来 控制 模型 的 复杂 度 ， 有 利于 防止 过 拟 合 ， 从 而 提高 模型 的 泛 化 能 力 。 


(3) GBDT 在 模型 训练 时 只 使 用 了 代价 函数 的 一 阶 导数 信息 ， 
人 : 阶 泰勒 展开 ， 可 以 同时 使 用 一 阶 和 二 阶 导 

(4) 传统 的 GBDT 采 用 CART 作 为 基 分 类 器 ，XGBoost 支 持 多 种 类 
型 的 基 分 类 器 ， 比 如 线性 分 类 器 。 


(5) 传统 的 GBDT 在 每 轮 选 代 时 使 用 全 部 的 数据 ，XGBoost 则 采用 
了 与 随机 森林 相似 的 策略 ， 支 持 对 数据 进行 采样 。 


(6) 传统 的 GBDT 没 有 设计 对 缺失 值 进行 处 理 ，XGBoost 能 够 自动 
学 习 出 缺失 值 的 处 理 策略 。 





机 器 学 习 竞赛 平 台 Kaggle 的 前 世 今 生 


XGBoost 的 火热 与 Kaggle 的 机 器 学 习 竞赛 是 分 不 开 的 ， 正 是 在 各 类 竞赛 中 突出 的 表 
Be EKG Boom yA TOBE, HAC ARLE XA Fagg 


Kaggle 是 全 球 机 器 学 习 竞赛、 开放 数据 集 和 数据 科学 合作 的 发 源 地 ， 也 是 当今 最 著 
名 最 炎热 简 机 器 学 习 兖 塞 平 台 。 在 被 从 于 收购 之 后 ，Kagale 的 知名 度 和 用 户 数 不 断 第 ， 
已 经 跨 过 了 百 万 用 户 的 大 关 ， 进 一 步 现 园 了 它 在 数据 科学 界 家 喻 户 晓 的 地 位 。 


“ 黄 雄 起 于 卫 陋 ， 壮 士 拔 于 行伍 "，Kaggle 也 不 是 平地 惊雷 般 出 现 的 ， 而 是 起 于 创始 
人 一 个 非常 朴素 的 想法 。2010 年 ， 就 职 于 澳大利亚 财政 部 的 Anthony Goldbloom 对 他 当前 
的 工作 路 感 失 单 ， 他 的 主要 工作 是 预测 GDP、 通 货 千 隔 和 失业 ， 但 传统 的 经 济 数据 规模 
很 小 而 且 噪声 很 大 ， 记 以 很 难得 出 有 趣 的 发 现 。 为 了 获得 更 有 趣 的 数据 集 和 问题 ， 
Anthony 利 用 业余 时 间 构建 了 Kaggle， 这 个 日 后 最 火热 的 机 器 学 习 竞赛 平台 就 这 样 诞生 
tr. 








和 最 初 的 愿景 有 所 不 同 ，Kaggle 的 发 展 有 些 出 卑 Anthony 的 意料 。 本 来 只 想 收集 - 
些 有 趣 的 问题 和 数据 供 自己 研究 ， 但 随 着 越 来 越 多 的 大 神 加 入 ，Anthony 发 现 自己 无 论 如 
何 也 做 不 了 那么 好 。 既 然 如 此 ，Anthony 索 性 致力 于 社区 的 发 展 ， 期 望 让 Kaggle 成 为 一 个 
清关 力 的 代码 、 数 据 和 讨论 的 生态 系 统 。 也 正 是 这 样 的 改变 ， 让 Kagale 注 入 了 开放 的 基 


时 至 今日 ，Kagale 已 经 成 了 Google Al 生 态 中 不 可 或 的 一 环 ，Anthony 在 回顾 自己 
创业 经 历 的 时 候 ， 说 了 两 点 建议 。 一 是 ， 去 解决 那些 你 自己 有 切身 体会 ， 并 且 觉得 其 他 
人 也 正经 历 ， 而 且 还 没有 被 解决 的 问题 :二 是 ， 你 要 对 这 个 问题 充满 热情 。 


不 过 笔者 还 是 要 说 ，* 时 势 造 英雄 啊 *"，Kagale 正 是 在 Al 第 三 次 热潮 的 风口“" 飞 "起 来 
的 。 视 各 位 创业 者 在 有 激情 ， 能 够 解决 痛 点 的 同时 ， 还 有 一 个 好 的 运气 。 

















第 13 章 ”生成 式 对 抗 网 络 


2014 年 的 一 天 ，Ian ”Goodfellow 与 好 友 相约 到 酒吧 。 平 日 工作 压力 
大 ， 脑 细胞 已 耗 尽 了 创作 激情 ， 在 酒吧 的 片刻 放松 使 他 想到 一 个 绝妙 的 
学 术 点 子 ， 那 之 后 就 有 了 生成 式 对 抗 网 络 的 传说 。 生成 式 对 扩 英 
文 名 叫 Generative Adversarial Nerworks， 简 称 GANs， 是 一 个 训 
型 的 新 框架 。GANs 刚 提出 时 这 Siig 
十 足 的 画面 ， 恰 好 契合 了 东方 世 中 演 
化 。 把 GANs 想 象 成 一 幅 太 极 图 , “太极 生 两 仪 "好 比 生成 器 和 
判别 器 ， 生 成 器 负责 生 ， 判 别 器 负责 灭 ， 灭 间 有 了 万 物 。 生 成 器 
在 初始 混沌 中 孕育 有 形 万 物 ， 判 别 器 甄别 过 滤 有 形 万 物 ， 扮 演 一 种 末日 
审判 的 角色 。GANs 自 提出 之 日 起 ， 迅 速 风 摩 深度 学 习 的 各 个 角落 ， 
GANs 的 变种 更 是 雨后春笋 般 进 入 人 们 的 视野 ， 诸 如 WGAN、 
、BiGAN、DCGAN、IRGAN 等 。GANs 之 火 ， 就 连 

















01 初 识 GANs 的 秘密 


2014 年 来 自 加 拿 大 蒙特 利 尔 大 学 的 年 轻 博士 生 Ian ”Goodfellow 和 他 
的 导师 Yoshua Bengio 提 出 一 个 叫 GANs 的 模 型 Bl Facebook AI 实验 室 主 
任 Yann ”LeCun 称 该 模型 是 机 器 学 习 领 域 近 十 年 最 具 创 意 的 想法 。 把 
GANs 想 象 成 造假 币 者 与 警察 间 展开 的 一 场 猫 捉 老鼠 游戏 ， 造 假币 者 试 
图 造 出 以 假 乱 真 的 假币 ， 警 察 试图 发 现 这 些 假币 ， 对 抗 使 二 者 的 水 平 都 
得 到 提高 。 从 造假 币 到 合成 模拟 图 片 ， 道 理 是 一 样 的 。 下 面 关 于 
GANs， 从 基础 理论 到 具体 模型 ， 再 到 实验 设计 ， 我 们 依次 思考 如 下 几 


个 问题 。 











知识 点 


MiniMax 游 戏 ， 值 函数 (Value Function) ，JS 距 离 (Jensen- 
Shannon Divergence) ， 概 率 生成 模型 ， 优 化 饱和 


问题 1 简 述 GANs 的 基本 思想 和 训练 过 程 。 


难度 : aerated 
分 析 与 解答 


GANs 的 主要 框架 如 图 13.1 所 示 ， 包 括 生成 器 (Gen ator) 和 判别 
器 (Discriminator) 两 个 部 分 。 其 中 ， 生 成 器 用 于 合 
-判断 输入 的 样本 是 真实 的 还 是 合成 的 。 有 具体 
分 布 中 采 得 随机 信号 ， 经 过 神经 网 络 的 变换 ， 得 到 模拟 样本 ; Beis 









接收 来 自生 成 器 的 模拟 样本 ， 也 接收 来 自 实际 数据 集 的 真实 样本 ， 但 我 





E REOMDEEERROITR, Bah WILE REI tod 
抗 中 让 双方 能 力 各 有 所 长 才 是 目的 。 理 想 情况 下 ， 生 成 器 和 判别 器 最 终 
能 达到 一 种 平衡 ， 双 方 都 珀 于 完美 ， 彼 此 都 没有 更 进一步 的 空间 。 
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图 13.1 GANs 模 型 的 框架 图 


GANs 采 用 对 抗 策略 进行 模型 训练 ， 一 方面 ， 生 成 器 通过 调节 自身 
oe ean ph k 
Bt a 使 得 其 能 尽 可 能 











判别 器 时 ， 先 固定 生成 器 G();， 然后 利用 生成 器 随机 

oO a (z 是 一 个 随机 向 量 ) ， 并 从 真实 数据 集中 
采样 获得 正 样本 X; : 负 样 本 输入 到 判别 器 D() 中 ， 根 据 判别 器 

的 输出 ( 即 DO0 或 D(G(2))) 和 样本 标签 米 计算 误差 最 后 利用 误差 反 向 
传播 算法 来 更 新 判别 器 D() 的 参数 ， 如 图 13.2 所 示 。 



















































































图 132 GANs 中 判别 器 的 训 统 


(2) 在 训练 生成 器 时 ， 先 固定 判别 器 D(); 然后 利用 当前 生成 
器 G(-) 随 机 模拟 产生 样本 G(z)， 并 输入 到 判别 器 D() 中 ， 根 据 判别 器 的 
输出 D(G(z)) 和 样本 标签 来 计算 误差 ， 最 后 利用 误差 反 向 传播 算法 来 更 新 
生成 器 G() 的 参数 ， 如 图 13.3 所 示 。 





















































图 133 ”GANs 中 生成 器 的 训 统 


问题 2 GANs 的 值 函 数 。 


难度 : Aeee 


GANs 是 一 个 双人 MiniMax 游 戏 ， 请 给 出 游戏 的 值 函数 。 理 想 情况 
下 游戏 最 终 会 达到 一 个 纳什 均衡 点 ， 此 时 记 生成 器 为 G"， 判 别 器 为 D”， 
请 给 出 此 时 的 解 CG", ， 以 及 对 应 的 值 函数 的 取 值 。 在 未 达到 均衡 
点 时 ， 将 生成 器 G 固 定 ， 寻 找 当下 最 优 的 判别 器 Dc"， 请 给 出 De" 和 此 时 
的 值 函数 。 上 述 问题 的 答案 在 Goodfellow 的 论文 中 都 有 回答 ， 进 一 步 
地 ， 俏 若 固定 D 而 将 G 优 化 到 底 ， 那 么 解 Go" 和 此 时 的 值 函数 又 揭示 出 什 
么 呢 ? 








分 析 与 解答 


因为 判别 器 D 试 图 识别 实际 数据 为 真实 样本 ， 识 别 生成 器 生成 的 数 
据 为 模拟 样本 ， 所 以 这 是 一 个 二 分 类 问题 ， 损 失 函 数 写成 Negative Log- 
Likelihood， 也 称 Categorical Cross-Entropy Loss, B: 


LID) = - I(x) [ p(dataix) log D(x) + plgh) logll - DCDO)]dr， 
(13.1) 
其 中 D(x) 表 示 判 别 器 预测 x 为 真实 样本 的 概率 ，p(datalx) 和 p(glx) 表 示 x 分 
属 真实 数据 集 和 生成 器 这 两 类 的 概率 。 样 本 x 的 来 源 一 半 是 实际 数据 
集 ， 一 半 是 生成 器 ，PRe(data) = Re(g)= 0.5。 RNI Pina (X) = P(x|data) 


SPARE e Pe OE Cg) 表 示 从 生成 器 得 到 x 的 概 
率 ， 有 x 的 总 概率 


P(x) = Pye (data) p(x\data) +p,.(g) P(g). 


(43.2) 


蔡 换 式 〈13.1) Hi peop(datalx) yp.-(data)pgar(X)» YA &p(x)p(glx) 
为 pve(g)psC9， 即 可 得 到 最 终 的 目标 函数 


£(D)= HMB a ollog D(x)] +E,- p log - DD, 


(13.3) 
在 此 基础 上 得 到 值 函数 


V(G, D) =B,- pu flog DONE, p llog - DON, 


3.4) 





判别 器 D 最 大 化 上 述 值 函数 ， 生 成 器 G 则 最 小 化 它 ， 整 个 MiniMax 游 戏 
( 见 图 13.4) 可 表示 为 : "max7(6,D)。 





图 13.4 MiniMax 对 搞 式 游戏 





训练 中 ， 给 定 生成 器 G， 导 找 当下 最 eG 
最 大 化 mx Pa (91og D + p, 08C- DO ypg 









(13.5) 
stpt, MinV(G, D5)=mnin -log4+2*J5D(pnl|p:))， 其 中 JSD() 是 1S 中 


离 。 由 此 看 出 ， 优 化 生成 器 G 实 际 是 在 最 小 化 生成 样本 分 布 与 真实 样本 
分 布 的 JS 距离 。 最 终 ， 达 到 的 i 是 /5D(ps lp 的 最 小 值 点 ， 


即 pg=paaia 时 ，JSD(po | Pr) 取 到 零 ， 最 优 解 6 E) =x~ Pasa x), P OS 









2s 


值 函数 F(G ,D)= -Ilog4。 


进一步 地 ， 训 练 时 如 果 给 定 D 求 解 最 优 G， 可 以 得 到 什么 ? 不 妨 假 
设 G' 表 示 前 一 步 的 生成 器 ，D 是 G' 下 的 最 优 判 别 器 De。 那 么 ， 求 解 最 
优 G 的 过 程 为 





Pim + Py 


arg min V (G, Dj,) = arg nine p 2 


EA 


(13.6) 





由 此 ， 可 以 得 出 以 下 两 


(1) 优化 G 的 过 程 是 让 G 远 离 前 一 步 的 G'， 同 时 接近 分 布 
(Paws + Pe)! 2, 






(2) 达到 均衡 点 时 
用 这 时 的 判别 器 去 训 
出 来 。 


问题 3 GANs 如 何 避 开 大 量 概率 推断 计算 ? 


难度 : tokede sey 


发 明 GANs 的 初 事 是 为 了 更 好 地 解决 概率 生成 模型 的 估计 问题 。 传 
统 概率 生成 模型 方法 〈 如 : 马尔 可 夫 随 机 场 、 贝 叶 斯 网 络 ) 会 涉及 大 量 
难以 完成 的 概率 推断 计算 ，GANs 是 如 何 避 开 这 类 计算 的 ? 


分 析 与 解答 


传统 概率 生成 模型 要 定义 一 个 概率 分 布 表 达 式 P(X)， 通 常 是 一 个 多 
变量 联合 布 的 密度 函数 p(X,X,…,Xy)， 并 基于 此 做 最 大 似 然 估 
计 。 这 过 程 少 不 了 概率 推断 计算 ， 比 如 计算 边缘 概率 P(X;)、 条 件 概率 





PQ) 以 及 作 分 母 的 Partition pee bah 多 时 ， TIn 





到 p00 的 一 个 Wek. ARAB 


如 果 随 机 变量 Z 和 X 之 间 满 足 某 种 映射 关系 X=f(Z)， 那 么 它们 的 概率 
分 布 px(X) 和 pz( 力 也 存在 某 种 映射 关系 。 当 Z, 耻 6 都 是 一 维 随机 变量 时 ， 
af (Z) 


Peay Pa 当 Z.X 是 高 维 随机 变量 时 ， 导 数 变 成 雅克 比 矩 阵 ， 即 px=7 
pze 因此， 已 知 z 的 分 布 ， 我 们 对 随机 变量 间 的 转换 函数 直接 建 模 ， 就 
唯一 确定 了 X 的 分 布 。 


这 样 ， 不 仅 避 开 大 量 复杂 的 概率 计算 ， 而 且 给 更 大 的 发 挥 空间 ， 
我 们 可 以 用 神经 网 络 来 训练 f。 近 些 年 神经 网 络 领域 大 踏步 向 前 发 展 ， 
涌现 出 一 批 新 技术 来 优化 网 ， 除 了 经 典 的 卷 积 神经 网 络 和 循环 神 
经 网 有 ReLu 激 活 函数 、 批量 归 一 、Dropout 等 ， 都 可 以 自由 地 
添加 到 生成 器 的 网 络 中 ， 大 大 增强 生成 器 的 表达 能 力 。 














问题 4 GANs 在 实际 训练 中 会 遇 到 什么 问题 ? 


难度 : ekekeke vr 


实验 中 训练 GANs 会 像 描述 的 那么 完美 吗 ? 最 小 化 目标 函数 
sllog(1D(G(z;8.) 妹 解 G 会 遇 到 什么 问题 ?你 有 何 解决 方案 ? 





解答 与 分 析 


在 实际 训练 中 ， 早 期 阶段 生成 器 G 很 差 ， 生 成 的 模拟 样本 很 容易 被 
判别 器 D 识 别 ， 使 得 D 回 传 给 G 的 梯度 极其 小 ， 达 不 到 训练 目的 ， 这 个 现 
象 称 为 优化 饱和 B31。 为 什么 会 这 样 呢 ? 我 们 将 D 的 Sigmoid 输 出 层 的 前 
一 层 记 为 o0， 那 么 D(x) 可 表示 成 D(x)=Sigmoid(o(x))， 此 时 有 


VD(x) = VSigmoid(o(x)) = D(x)(1- D(x))Vo(x), 
(13.7) 
因此 训练 G 的 梯度 为 
Vlog(1- D(G(z;8,))) = -D(G(2:8, )Vo(G(z;8,)). 
(13.8) 


当 D 很 容易 认 出 模拟 样本 时 ， 意 味 着 认错 模拟 样本 的 概率 几乎 为 零 ， 即 
D(G(z;8.)) 一 0。 假 定 !Ve(G(:;0.) kK C，C 为 一 个 常量 ， 则 可 推出 


lim ,Vlog(1- D(G(z;0,)) == lim D(G(z:0,)Vo(G(z;0,) 


woan ct 
=0. 
3.9) 
故 G 获 得 的 梯度 基本 为 零 ， 这 说 明 D 强 大 后 对 G 的 帮助 反而 微乎其微 。 
怎么 办 呢 ? 解决 方案 是 将 log(1-D(G(z;0,)) 变 为 log(D(G(z;9.))， 形 

式 上 有 一 个 负 号 的 差别 ， 故 让 后 者 最 大 等 效 于 让 前 者 最 小 ， 二 者 在 最 优 
时 解 相同 。 我 们 看 看 更 改 后 的 目标 函数 有 什么 样 的 梯度 : 
Vlog(D(G(z;0.)) =(1-D(G(z;0, )Vo(G(z;0.), 

(13.10) 


a atm o Vlog(D(G(z;6,))) = Vo(G(z54,)), 


3.11) 


EDGE ee, VO DGEO MwA ZI, MER EREE 
供 有 效 的 梯度 。 


02 WGAN: 抓 住 低 维 的 幽灵 
















过 "这 个 
其 实 ， 低 维 不 见得 一 点 好 处 都 没有 
PRTA ‘EH 3) Tor 猫 一 

， Ñ: 





看 ; 
词 ， 像 拍 苍蝇 一 样 把 敌人 拍 扁 。 
象 猫 和 老鼠 这 部 动画 的 一 个 镜头 
ee) 上 挂 了 很 














REEM, 这 个 体积 度 
测度 就 是 零 ， 就 像 
物体 ， 在 高 维 空间 中 计 。 

是 那么 无 足 轻重 ， 像 一 层 纱 ， 似 一 
界 。 






fe 一 样 。 tit, EN 
E 活 在 高 维 世界 的 人 来 说 ， 低 维 空间 
个 幽灵 ， 若 有 若 无 ， 是 一 个 隐 去 的 世 











图 13.5 二 维 画 而 与 三 


2017 年 ， 一 个 训练 生成 对 抗 网 络 的 新 方法 WGAN 被 提出 I。 在 此 
之 前 ，GANs 已 提出 三 年 ， 吸 引 了 很 多 研究 者 来 使 用 它 。 原 理 上 ， 大 家 


a] 





都 觉得 GANs 的 思路 实在 太 巧妙 ， 理 解 起 来 也 不 复杂 ， 符 合 人 们 的 直 
觉 ， 万 物 不 都 是 在 相互 制约 和 对 抗 中 逐渐 演化 升级 吗 。 理 论 上 ， 
Goodfellow 在 2014 年 已 经 给 出 GANs 的 最 优 性 证 明 ， 证 明 GANs 本 质 上 是 
在 最 小 化 生成 分 布 与 真实 数据 分 布 的 JS 距 离 ， 当 算法 收敛 时 生成 
的 分 布 就 是 真实 数据 的 分 布 。 但 是 ， 实 际 使 用 中 发 现 很 多 解释 不 清 的 问 
题 ， 生 成 器 的 训练 很 不 稳定 B5。 生 成 器 这 只 Tom 猫 ， 很 难 抓 住 真实 数据 
分 布 这 只 老鼠 Jerry。 








知识 点 


424% (Collapse Mode) ，Wasserstein 距 离 ，1-Lipschitz 函 数 


问题 1 GANs 的 陷阱 ， 原 GANs 中 存在 的 哪些 问题 制约 模 
型 训练 效果 。 


难度 : dk beater 
分 析 与 解答 


GANs 的 判别 器 试图 区 分 真实 样本 和 生成 的 模拟 样本 。Goodfellow 
在 论文 中 指出 ， 训 练 判别 器 ， 是 在 度量 生成 器 分 布 和 真实 数据 分 布 的 JS 
距离 ， 训 练 生成 器 ， 是 在 减 小 这 个 JS 距 离 。 即 使 我 们 不 清楚 形成 真实 数 
poeta 还 是 可 以 用 一 个 模拟 生成 过 程 去 蔡 代 之 ， 只 要 它们 的 数 
据 分 布 一 致 。 


但 是 实验 中 发 现 ， 训 练 好 生成 器 是 一 件 很 困难 的 事 ， 生 成 器 很 不 稳 
E WA. HAIN? 拿 图 片 举例 ， 反 复生 成 一 些 相 
相同 的 图 片 ， 多 样 性 太 差 。 生 成 器 似乎 将 图 片 记 下 ， 没 有 泛 化 ， 更 
造 新 图 的 能 力 ， 好 比 一 个 笨 小 孩 被 填 鸭 灌输 了 知识 ， 只 会 死记 硬 

， 没 有 真正 理解 ， 不 会 活 学 活用 ， 更 无 创新 能 力 。 








近 
没 
背 





DEN, 猜测 问题 根源 可 能 与 
一 个 样本 (如 一 张 图 片 》， 

子 空间 的 流 形 〈 即 高 维 曲 

F, BRT A 

器 分 布 与 真实 数据 分 布 的 JS 


为 什么 会 这 样 ? 既然 
JS 距离 有 关 。 高 维 空间 
空间 大 部 分 是 多 余 的 ， 真 实数 据 赚 
面 ) 上 ， 因 为 维度 低 ， 所 占 空间 体积 几 
在 三 维 空间 ， 不 仔细 看 很 难 发 现 。 考 虑 
距离 ， 即 两 个 KL 距离 的 平均 : 
jn) 


ETERN: 由 于 参数 随机 初始 化 , 与 其 说 是 一 个 样本 生成 器 ， 不 如 
说 ei 成 器 ， 点 广泛 分 布 在 高 维 空间 中 。 打 个 比方 ， 生 | 

兵力 "有 限 ， 网 布 得 越 大 ， 每 个 点 附近 的 
ž 可 看 见 的 
如 果真 实数 据 全 都 分 布 在 这 ， 它 
( 见 图 13.6) 。 















1 B+ 
se Afra, Ney 


(13.12) 

















图 13.6 高 维 空间 中 的 生成 器 样本 网 点 与 低 维 流 形 上 的 真实 分 布 


回 到 公式 ， 看 第 一 个 KL 距离 : 


B+ 
KL P, || 


Fe) = fog Po _ 
2 J- p rat Stara) moon 





(43.13) 


高 维 空间 绝 大 部 分 地 方 见 不 到 真实 数据 ，p,(x) 处 处 为 零 ， 对 KL 距离 的 
贡献 为 零 ， 即 使 在 真实 数据 峰 缩 的 低 维 空间 ， 高 维 宅 间 会 忽略 低 维 宅 间 
的 体积 ， 概 率 上 讲 测度 为 零 。KL 距 离 就 成 了 982 p, 0o =log2, 


再 看 第 二 个 KL 距离 : 


xf T 2) pafta rono 


(p,@)+p,(9)/2 
同 理 KL 距 离 也 为 ，| iog2* mm(COdu(o) = log2。 因 此 ，JS 距 离 为 og 2， 一 





《13.14) 






个 常量 伦 生 成 器 怎么 < 布 网 ”， 练 ， 对 生成 器 的 
pee 川 练 神经 网 络 是 基于 梯度 下 降 的 ， 用 梯度 一 次 次 更 新 模型 参 
， 如 果 梯 度 总 是 零 ， 训 练 还 怎么 进行 ? 





问题 2 破解 武器 : WGAN 针 对 前 面 问题 做 了 哪些 改进 ? 
什么 是 Wasserstein 距 离 ? 


难度 : tok se 
分 析 与 解答 


直觉 告诉 我 们 ， 不 要 让 生成 器 在 高 维 空间 傻 傻 地 布 网 ， 让 它 直 接 到 
低 维 空间 “ 抓 "真实 数据 。 道 理 虽 然 是 这 样 ， 但 是 在 高 维 空间 中 藏 着 无 数 
的 低 维 子 空间 ， 如 何 找到 目标 子 空间 呢 ? 站 在 大 厦 顶 层 ， 环 姚 四 周 ， 你 
可 以 迅速 定位 远 处 的 山 帘 和 高 塔 ， 却 很 难 知晓 一 个 个 楼 宇 间 办 公 室 里 的 
事情 。 你 需要 线索 ， 而 不 是 简单 撤 网 。 处 在 高 维 空间 ， 对 抗 隐秘 的 低 维 
空间 ， 不 能 再 用 粗暴 简陋 的 方法 ， 需 要 有 特殊 武器 ， 这 就 是 Wasserstein 
距离 〔 见 图 13.7) ， 也 称 推土机 距离 CEarth Mover distance) 


WEP )= Be Ey = 








(13.15) 





图 13.7 Wassersteinlli BS 


怎么 理解 这 个 公式 ? 想象 你 有 一 个 很 大 的 院子 ， 院 子 里 有 几 处 坑 坑 
需要 填 平 ， 四 个 墙角 都 有 一 堆 沙 子 ， 沙 子 总 量 正好 填 平 所 有 坑 。 搬 
* 子 很 费力 ， 你 想 知 道 有 # ， 使 得 花 的 力气 最 少 。 直 觉 
上 ， 每 个 坑 都 选择 最 近 的 沙 堆 ， 搬 运 的 距离 最 得 。 但 是 存在 一 些 问题 ， 
É ， 或 者 填 完 坑 后 近 处 还 剩 好 多 沙子 ， 或 者 坑 到 几 
个 沙 堆 的 距离 一 样 ， 我 们 该 怎么 办 ? 所 以 需要 设计 一 个 系统 的 方案 ， 通 


子 分 布 和 坑 分 布 给 定时 ， 我 们 只 关心 搬 
粒 沙子 的 具体 摆 放 ， 在 损耗 不 变 的 情况 下 ， 沙 子 摆 放 可 能 有 很 多 选择 。 
对 应 式 〔13.16) ， 当 你 选择 一 对 (xy) 时 ， 表 示 把 x 处 的 一 些 沙子 搬 到 y 处 
的 坑 ， 可 能 搬 部 分 沙子 ， 也 可 能 搬 全 部 沙子 ， 可 能 只 把 坑 填 一 部 分 ， 也 
可 能 都 填 满 了 。x 处 沙子 总 量 为 P(x*)，y 处 坑 的 大 小 为 Be XY)， 从 x 到 y 的 沙 
子 量 为 yy)， 整 体 上 满足 等 式 


YL) =P,0) 














(13.16) 
Eyy) =P a) 


(13.17) 


为 什么 Wasserstein 距 离 能 克服 JS 距离 解决 不 了 的 问题 ? 理论 上 的 解 
释 很 复杂 ， 需 要 证 明 当 生成 器 分 布 随 参数 9 变化 而 连续 变化 时 ， 
分 布 与 真实 分 布 的 Wasserstein 距 离 也 随 9 变化 而 连 
处 可 导 ， 而 JS 距离 不 保证 随 9 变化 而 连续 变化 。 





通俗 的 解释 ， 接 着 “ 布 网 "的 比喻 ， 现 在 生成 器 不 再 “ 布 网 "， 改 








成 “定位 追 管 真实 分 布 茂 在 哪个 低 维 子 空间 里 ， 生 成 器 都 能 感 
知 它 在 哪 ， 因 为 生成 器 只 要 将 自身 分 布 稍 做 变化 ， 就 会 改变 它 到 真实 分 


布 的 推土机 距离 ;而 JS 距离 是 不 敏感 的 ， 无 论 生 成 器 怎么 变化 ，JS 距 离 
MATR: 因此 ， 使 用 推土机 距离 ， 能 有 效 锁定 低 维 子 空间 中 的 真 
实数 据 分 布 


问题 3 WGAN 之 道 : 怎样 具体 应 用 Wasserstein 距 离 实 现 
WGAN 算 法 ? 


难度 ， 交 六 六 六 六 
分 析 与 解答 


一 群 老鼠 开会 ， 得 出 结论 :如果 在 猫 脖 上 
ed 那 多 好 ! 唯一 的 问题 是 : 谁 来 系 这 个 铃 销 ? 现在 ， 我 
Ai 算 这 个 距离 ? 推土机 距离 的 

兄弟 ， WEA RII il 





RE, PRERE 













Wasserstein 离 的 对 个 式 
W(P,,P,)= oe EB,s Lf)-B.s, LAO 
Esr LAON- E- pily. 





(13.18) 


对 偶 式 大 大 降低 了 Wasserstein 距 高 的 求解 玲 度 ， 计算 过 程 变 为 找到 一 
函数 /， 使 得 它 最 大 化 目标 函数 Bs[fOO]-Bs, FO), ne Seip 
眼熟 ， 对 比 原 GANs 的 mx 也 -sog DO)]+E, z log- DO], 它 只 是 去 
掉 了 log， 所 以 只 做 微小 改动 就 能 使 用 原 GANs 的 框架 。 


细心 的 你 会 发 现 ， 这 里 的 /与 D 不 同 ， 前 者 要 满足 | “六 sl E- 
Lipschitz 函 数 ， 后 者 是 一 个 Sigmoid 函 数 作 输出 层 的 神经 网 络 。 它 们 都 要 





求 在 寻找 最 优 函 数 时 ， 一 定 要 考虑 界 的 限制 。 如 果 没 有 限制 ， 函 数值 会 
K Ri. er ee 的 界 ， 而 1-Lipschitz 不 是 限制 
EERTE 









ESCIEN, MARAI nT REH a 
权重 矩阵 贡献 的 ， 因 此 约束 每 个 权重 矩阵 的 大 小 ， 可 以 约束 网 络 输出 对 
输入 的 梯度 大 小 。 


判别 器 在 这 里 换 了 一 个 名 字 ， 叫 评分 器 (Critic) ， 
分 样本 来 源 " 变 成 “为 样本 打分 "， 越 像 真实 样本 分 数 越 高 ， 否 则 越 低 ， 
de CE TRARRE 

He PRET, EMERG a. WIRA HEG a, ba 
的 距离 (或 margin) 越 来 越 大 ， 生 成 器 的 目标 是 追 上 兔子 EN 
讲 ， 评分 器 就 是 计算 生成 器 分 布 与 真实 分 布 的 Wasserstein 距 离 : 
定 评分 器 ， 训 练 生成 器 就 是 在 缩小 这 个 距离， Pv 
距离 对 生成 器 参数 9 的 梯度 ，VeW(P.,P) = 一 BycalVef,(8a(z)) 再 通 
过 梯度 下 降 法 更 新 参数 ， 让 Wasserstein 距 离 变 小 。 


函数 由 “区 

















Weight Clamping 
(No BCE) 
商 得 分 
低 得 分 
高 得 分 
a, maae T mos 


一 生成 器 的 训练 


图 13.8 WGAN 的 训练 


03 DCGAN: 当 GANs 遇 上 卷 积 







马上 应 用 卷 积 神经 
到 图 像 ， 人 们 会 经 网 络 ， 为 什么 GANs 最 
来 不 是 随便 一 个 卷 积 神经 网 络 就 能 玩 转 GANs， 研 究 者 最 
么 成 功 。 


图 像 相关 的 儿 大 学 习 任务 包括 图 像 分 类 、 图 像 分 割 、 物 体检 测 与 
等 。 





图 像 分 类 任务 是 大 多 数 卷 积 神经 网 络 的 主 战场 ， 从 手写 数字 识别 到 
ImageNet 大 规模 图 像 识别 比赛 ， 从 AlexNet、VGG、GoogLeNet 到 
i 同 络 结构 。 输 入 一 张 图 片 ， 输 出 一 个 类 
， 一 端 是 表示 类 别 的 一 个 词 ， 从 输入 庙 
大 量 比如 识别 狗 的 图 片 ， 模 型 关心 的 是 狗 ， 不 是 狗 
颜色 和 品种 ， 如 图 13.9 所 示 。 卷 积 神经 网 络 仅 
用 来 识别 图 片 类 别 ， 难以 输出 一 张 


ER: 


图 13.9 图 像 分 类 
图 像 分 割 任务 中 ， 输 入 一 张 图 片 ， 输 出 与 原 图 同 尺寸 的 分 割 图 ， 图 
不 同 区 域 ， i 同一 颜色 表示 。 还 是 
ere 注意 ， 


1 神经 网 络 结构 ， 比 如 分 数 步 进 
Convolutions) ， 也 称 反 卷 积 层 




















不 减 反 增 ， 从 而 使 得 分 割 任务 中 
如 图 13.10 所 示 。 


(Deconvolutions) ， 它 让 每 层 的 


最 终 的 输出 和 原始 输入 图 片 尺 寸 相同 ， 





图 13.11 图 像 生成 


知识 点 


卷 积 神经 网 络 ， 分 数 步 进 卷 积 层 〈 反 卷 积 层 ) ， 批 量 归 一 化 ， 
ReLU/LReLU 


问题 在 生成 器 和 判别 器 中 应 该 怎样 设计 深层 
构 ? 





卷 积 结 


难度 : doeke 


为 了 生成 高 分 辩 率 的 优质 图 片 ， 我 们 准备 在 GANs 框 架 内 嵌入 多 层 
卷 积 网 络 。 但 是 ， 一 般 的 卷 积 结构 达 不 到 我 们 的 期 待 。 


分 析 与 解答 


为 了 充分 发 挥 GANs 中 卷 积 网 络 的 威力 ， 我 们 需要 搞 清楚 两 件 事 
情 : 生成 器 到 底 做 了 什么 ? 以 及 判别 器 到 底 做 了 什么 ? 


于 生成 器 


生成 器 生成 图 片 ， 可 以 看 成 图 片 分 类 的 一 个 逆 过 程 。 图 片 分 类 器 的 
输入 是 一 张 图 片 ， 输 出 是 一 个 类 别 ;图 片 生成 器 的 输出 是 一 张 图 片 ， 但 
它 的 输入 是 什么 呢 ? 输入 通常 有 一 个 随机 向 量 ， 如 高 斯 分 布 产生 的 100 
维 随机 向 量 。 这 个 随机 向 量 有 什么 含义 ? 在 深度 神经 网 络 的 黑 盒子 里 ， 
我 们 无 从 知道 。 但 是 我 们 可 以 确定 : 100 维 随机 向 量 对 比 一 张 128x128 小 
图 片 (扁平 化 后 是 16384 维 ) 是 一 个 极 低 维 的 向 量 。 


从 低 维 向 量 得 到 高 维 图 片 ， 想 高 分 辩 率 ， 这 怎么 可 能 ? 例如 ， 从 一 
个 类 别 到 一 张 图 片 ， 由 少 到 多 ， 不 仅 不 能 压缩 或 丢失 信 | 
充 信 息 ， 任 务 难度 必然 增 大 。 好 比 ， 我 一 说 你 脑子 里 闪 出 狗 的 画 
面 ， 可 能 是 金 巴 ， 可 能 是 藏獒 ， 你 以 前 一 定 见 过 这 样 的 狗 ， 脑 子 里 已 经 
有 了 它 的 影像 信息 ， 我 的 一 个 词 就 能 引起 你 的 想象 。 即 便 这 样 ， 让 你 画 
出 狗 来 ， 假 定 你 绘画 功底 很 强 ， 你 最 先 画 出 的 是 狗 的 轮廓 ， 而 不 是 一 张 
真实 图 片 ， 因 为 有 太 多 的 细节 需要 一 加 ， 比 如 : 狗 毛发 的 颜色 ， 
狗 是 跑 着 的 还 是 卧 着 的 ， 狗 在 屋子 里 还 是 在 草地 们 可 以 把 100 
维 随机 向 量 ， 理 解 成 要 事先 确定 一 ， 除 了 类 有 细节 ， 它 们 
各 项 独立 并 可 以 相互 组 侣 ， 比 如 一 只 装 在 茶杯 里 的 呆 萌 茶 杯 犬 ( 见 图 
13.12) 。 



























图 13.12 图 像 生成 任务 需要 的 一 些 细节 信息 


用 随机 向 量 的 每 维 刻 画 不 同 的 细节 ， 然 后 生成 一 张 图 片 。 随 机 向 量 
不 含 像素 级 别 的 位 置信 a 
构成 了 线 ， 线 组 成 了 面 ， 进 

是 从 随机 向 量 中 产生 ， 那 么 就 应 出 自生 成 器 的 特殊 网 络 结构 。 


那么 ， 卷 积 神经 网 络 能 体现 位 置信 息 吗 ? 最 初 设计 卷 积 神经 
感受 时 的 概念， nE E ANTI 只 有 位 
















ae i : EU 
别 。 经 典 的 疮 积 神经 网 络 只 是 捕 所 或 识别 位 置 息 ， 不 负责 产生 位 置信 
息 ， 位 置信 息 来 源 于 输入 的 图 片 ， 当 它们 不 能 有 效 反映 图 片 的 高 级 语义 
《如 类 别 ) 时 ， 就 会 在 逐 层 计算 中 被 丢掉 B6l。 


因此 ， 从 随机 向 量 造 出 图 片 ， 要 在 造 的 过 程 中 产生 位 置信 息 。 这 个 
生成 过 程 需 符合 以 下 两 点 原则 。 


(1) 保证 信息 在 逐 层 计算 中 逐渐 增多 。 

(2) 不 损失 位 置信 息 ， 并 不 断 产生 更 细节 的 位 置信 息 。 
参考 文献 [37] 给 出 了 一 套 具体 的 做 法 。 

(1) 去 掉 一 切 会 丢掉 位 置信 息 的 结构 ， 如 池 化 层 。 








化 层 是 在 邻近 区 域 取 最 大 或 取 平均 ， 会 丢失 这 一 区 域内 的 位 
息 : 无 论 怎么 布局 ， 最 大 值 和 平均 值 是 不 变 的 。 位 置 不 变性 是 应 ; 
分 类 的 一 个 优良 性 质 ， 但 是 对 图 片 生成 来 说 是 一 个 糖 糕 的 性 质 ， 因 为 这 
人 通过 丢失 细节 信息 来 保留 高 级 语义 〈 即 分 类 相关 
信息 ) 。 


(2) 使 用 分 数 步 进 卷 积 层 。 


模型 要 做 的 不 是 抽象 而 是 具象 ， 计 算是 升 采样 的 过 程 ， 逐 步 提供 更 
多 细节 。 将 100 维 随机 向 量 经 过 一 层 ， 变 换 成 一 个 4x4x1024 的 张 量 ， 宽 
度 和 高 度 都 为 4， 虽 然 大 小 有 限 ， 但 是 暗示 了 位 置 的 存在 ， 接 着 经 过 层 
层 变换 ， 高 度 和 宽度 不 断 扩大 ， 深 度 不 断 减 小 ， 直 至 输出 一 个 有 宽度 、 
高 度 及 RGB 三 通道 的 64x64x3 图 片 。 


传统 卷 积 层 只 能 缩小 或 保持 前 一 层 的 高 度 和 宽度 ， 对 于 扩大 高 宽 无 
能 为 力 ， 我 们 需要 采用 特殊 的 卷 积 层 来 实现 增加 高 宽 的 升 采样 计算 
[8]， 即 分 数 步 进 卷 积 层 ， 如 图 13.13 所 示 。 

















图 13.13 分 数 步 进 卷 积 层 


步 长 大 于 1 的 传统 卷 积 层 会 把 输入 图 缩 成 一 张 高 宽 更 小 的 图 ，5x5 的 
图 经 过 核 3x3 步 长 2x2 的 卷 积 层 得 到 一 个 2x2 的 图 ， 如 图 13.14 (a) 所 
示 。 如 果 这 个 过 程 可 逆 ， 则 由 输入 2x2 图 可 得 5x5 图 。 严 格 意义 上 的 逆 过 
程 是 数学 上 的 求 逆 操 作 ， 这 太 复杂 。 分 数 步 进 卷 积 层 只 是 象征 性 地 保证 
输入 2x2 图 输出 5x5 图 ， 同 时 仍 满足 卷 积 操作 的 定义 。 怎 么 做 到 ? 填 零 
不 仅 边缘 处 填 零 ， 像 素 点 间 也 填 零 。 我 们 将 2x2 图 扩 为 5x5 图 ， 再 经 过 核 
3x3 步 长 1x1 的 卷 积 层 ， 就 能 得 到 一 个 5x5 图 ， 如 图 13.14 (b) 所 示 。 这 
个 “ 逆 " 卷 积 过 程 只 是 图 分 辩 率 的 逆 ， 而 非 数 学 意义 上 的 求 逆 。 














(oy aman 
图 13.14 卷 积 操作 

(3) 去 掉 最 后 的 全 连接 层 

通常 CNN 最 后 接 全 连接 层 ， 是 为 了 综合 各 维度 做 非 线性 变换 ， 应 对 













图 片 分 类 的 目标 。 这 里 的 任务 是 生成 图 片 ， 用 全 连接 层 不 
会 打 乱 多 层 卷 积 空间 结构 。 越 靠近 图 片 输出 端 ， 


高 二 维 平面 上 的 位 置信 息 ， 反而 在 输入 端 可 以 增加 一 个 全 连接 ， 将 
100 维 随机 向 量 经 过 和 矩阵 乘法 转换 成 4x4x1024 的 张 量 。 


(4) 批量 归 一 化 和 ReLU 激 活 函数 


批量 归 一 化 是 2015 年 Loffe & Szegedy 提 出 的 用 于 改进 神经 网 络 结构 
的 一 层 ， 称 为 Batchnorm 层 ， 现 已 被 广泛 使 用 B99。 单个 神经 元 在 b: 
面 上 做 正规 化 处 理 ， 得 到 均值 0 方差 1 的 新 batch， 保 证 通畅 的 梯 免 
除 糟糕 初始 化 的 影响 ， 改 善 模 型 的 训练 效果 。 生 成 模型 越 需要 
Batchnorm 层 ， 否 则 训练 不 充分 ， 极 易 出 现 模型 雪 塌 问题 ， 总 生成 相同 
的 图 片 样本 。 另 外 ， 为 了 避免 梯度 饱和 ， 让 : ， 内 部 使 用 
ReLU 激 活 函数 ， 只 在 图 片 输出 层 用 Tanh 激 活 


里 判别 器 


判别 器 鉴别 生成 图 片 和 实际 图 片 。 这 是 一 个 典型 的 图 片 分 类 任务 ， 
但 是 又 不 同 于 一 般 的 图 片 分 类 。 真 品 和 顾 品 的 区 别 ， 往 往 是 细节 上 的 差 
异 ， 而 不 是 宏观 层面 的 语义 差异 。 判 别 器 的 多 层 卷 积 网 络 ， 依 然 抛弃 池 
化 层 ， 将 它 蔡 换 为 步 长 大 于 1 的 卷 积 层 ， 虽 然 也 是 一 个 降 采 样 的 过 程 ， 
但 是 没有 池 化 层 那 样 粗放 。 判 别 器 的 最 后 一 层 不 接 全 连接 层 ， 扁 平 化 处 
理 后 直接 送 给 Sigmoid 输 出 层 ， 最 大 限度 地 留 住 位 置 细节 。 另 外 ， 判 别 
器 的 内 部 激活 函数 使 用 CReLU， 也 是 要 最 大 限度 地 留 住 前 层 信息 。 判 别 
器 也 用 到 Batchnorm 层 。 















04 ALI: 包揽 推断 业务 


场景 描述 


宋朝 有 位 皇帝 非常 喜爱 书画 ， 创 建 了 世界 上 最 早 的 皇家 画院 。 ae 
考试 ， 他 出 的 题目 是 “深山 藏 古寺 "， 让 众多 前 来 报考 的 画家 画 
山腰 间 画 了 一 座 古 寺 ， 有 的 将 古寺 画 在 丛林 深 处 ， 有 的 古寺 画 得 完 
有 的 只 画 了 寺 的 一 角 。 皇 帝 看 了 都 意 ， 就 在 他 叹息 之 时 ， 一 幅 画 作 
进入 他 的 视线 ， 他 端详 一 番 称赞 道 : ! 妙 哉 !” seal Legg 
没有 寺 ， 只 见 崇山峻岭 间 ， 一 股 清泉 飞 流 直下 ， laud face 
a TEDUKA H, i hein 去 的 小 路 ， bh 林 深 

见 图 13.15) 。 寺 虽 不 见于 画 ， 却 定 " 藏 "于 山 ， 比 起 寺 的 一 角 或 一 on 
Ey 更 切合 考题 。 



























深山 现 古寺 





COT DE 
图 13.15 深山 项 古寺 
看 的 不 仅 是 画家 的 画 技 ， 还 有 所 表达 的 主题 。 同 一 主 
的 手法 很 多 ， 不 同人 会 画 出 不 同 画 。 反 过 来 ， 观 者 在 看 到 这 些 
者 能 联想 到 A Em RAMA 给 一 个 主题 




















Salta a at 没有 
的 能 力 ; 另 一 方面 ， 当 听 到 一 个 人 的 发 
会 揣摩 对 方 的 真实 用 意 ， 他 的 话 是 什么 意思 ， 











两 种 表达 空间 里 ， 一 种 是 观察 数据 所 在 的 数据 空间 ， 
的 隐 空 间 ， 后 者 是 前 者 的 一 种 抽象 。 生 成 和 推断 上 
的 转换 ， 用 两 个 深度 rebel 一 个 是 生成 网 络 ， 好 全 是 全 
络 。 生 成 网 络 建立 从 隐 : 映 推断 网 络 建立 从 数据 室 
间 到 隐 空 间 的 映射 。 数 据 空 为 









看 不 见 ， 称 为 暗 码 ， 因 此 生成 网 络 是 一 个 解码 器 (Decoder) ， 推 断 网 
络 是 一 个 编码 器 (Encoder) 。 


把 生成 和 推断 相 结合 ， 想象 一 个 场 我 们 想 学 习 印 象 派 画家 的 画 
它们 的 表现 手法 及 反映 的 主题 ， 然 后 我 们 

， 亲 自 到 ， 创 作 一 由 印象 派 画 。 整个 过 程 分 为 推 

生成 。 那 么 ， 如 何 提高 我 们 的 绘画 水 平 ? 我 们 需要 一 位 大 师 或 懂 画 | 
论 家 ， 告 诉 我 们 哪里 理解 的 不 对 ， 哪 里 画 的 不 对 。 我 们 则 要 在 评论 
Hr 以 至 于 让 他 挑 不 出 毛病 。 这 也 是 GANs 的 基本 思路 。 


2017 年 的 一 篇 论文 提出 ALI (Adversarially Learned Inference) 模型 
El， 将 生成 网 络 和 推断 网 络 一 起 放 到 GANs 的 框架 下 ， 进 而 联合 训练 生 
成 模型 和 推断 模型 ， 取 得 不 错 的 效果 。 
























知识 点 
概率 推断 ， 隐 空间 ，Encoder/Decoder 


问题 “生成 网 络 和 推断 网 络 的 融合 。 


难度 : Aeee teas 


请 问 如 何 把 一 个 生成 网 络 和 一 个 推断 网 络 融合 在 GANs 框 架 下 ， 借 
助 来 自 判别 器 的 指导 ， 不 仅 让 模拟 样本 的 分 布 尽量 允 近 真实 分 布 ， 而 且 
让 模拟 样本 的 隐 空 间 表示 与 真实 样本 的 隐 空 间 表示 在 分 布 上 也 尽量 接 


近 。 








分 析 与 解答 


任何 一 个 观察 数据 x， 背 后 都 有 一 个 隐 空 间 表示 z， 从 x 到 z 有 一 条 转 
换 路 径 ， 从 z 到 x 也 有 一 条 转换 路 径 ， 对 应 一 个 编码 过 程 ， 后 者 对 应 
一 个 解码 过 程 。 从 概率 的 角度 看 ， 编 码 是 一 个 推断 过 程 ， 先 从 真实 数据 





集 采样 一 个 样本 x， 再 由 x 推断 z， 有 给 定 x 下 z 的 条 件 概率 q(z)); 解码 是 

一 个 生成 过 程 ， 先 从 一 个 固定 分 布 《 如 : 高 斯 分 布 N(0, 出 发 ， 采 样 
一 个 随机 信号 E， 经 过 简单 变换 成 为 z， 再 由 z 经 过 一 系列 复杂 非 线性 变 
换 生 成 x>， 有 给 定 z 下 x 的 条 件 ， 间 表 示 z 比 观察 数 
据 x 更 抽象 更 精炼 ， 刻 画 z 的 维 数 应 远 小 于 x， 从 随机 信号 E 到 z 只 做 简单 

变换 ， 有 了 时 直接 拿 e 作 z， 表 明 隐 空 间 的 信息 被 压缩 得 很 干净 ， 任 何 元 余 
都 被 榨 干 ， 任 何 相 关 维 度 都 被 整合 到 一 起 ， 使 得 隐 空 间 各 维度 相互 独 

立 ， 因 此 隐 空 间 的 随机 点 是 有 含义 的 。 


将 观察 数据 和 其 隐 空间 表示 一 起 考虑 ，(xz)， 写 出 联合 概率 分 布 。 
从 推断 的 角度 看 ， 联 合 概 率 q(=q0oqlz)， 其 中 qbe 为 真实 数据 集 上 
的 经 验 数据 分 布 ， 可 认为 已 知 ， 条 件 概率 q(zx) 则 要 通过 推断 网 络 来 表 
ik; 从 生成 的 角度 看 ，p(x,z)=p(z)p(xlz)， 其 中 p(z) 是 事先 给 定 的 ， 如 z 
一 N(0,D， 条 件 概率 p(xlz) 则 通过 生成 网 络 来 表达 。 让 这 两 个 
联合 概率 分 布 g(x,z) 和 p(xz) 相 互 拟 合 者 趋 于 ， 可 以 确定 对 
应 的 边缘 概率 都 相等 ，q(x)=p(x)，q(z)=p(z)， 对 应 的 条 件 概率 也 都 相 
等 q(zh)=p(zh)， gerne: 最 重要 的 是 ， 得 到 的 生成 网 络 和 推断 网 络 
是 一 对 互 逆 的 网 络 。 值 得 注意 的 是 ， 这 种 互 逆 特 性 不 同 于 自动 编码 器 这 
meres ee oats 后 者 是 完全 一 等 一 的 重建 ， 而 前 者 
是 具有 相同 隐 空间 分 布 《 如 : 风格 、 主 题 ) 的 再 创造。 


除了 生成 网 络 和 推断 网 络 ， 还 有 一 个 判别 网 络 。 它 的 目标 是 区 分 来 
自生 成 网 络 的 人 = Gaesn(2)3) 和 来 自 推断 网 络 的 (x = Gan(9)， 如 图 13.16 
所 示 。 在 GANs 框 架 下 ， 判 别 网 络 与 生成 和 推断 网 络 共享 一 个 目标 函数 


VD, Gona Ge.) = Bg oll0BD,(%,G,, 1+ B-log- DG, (2)2)) 



























= [Jada | se )l0g D, (x, z)drdz + [J p(2) plo | 258) 0801- D,(x,2))ddz 
(13.19) 
进行 的 也 是 一 场 MiniMax 游 戏 ; 
dei PI Or Ge Gea), 
(13.20) 


其 中 be,Qusg 分 别 为 生成 网 络 、 推 断 网 络 和 判别 网 络 的 参数 ， 判 别 网 络 
试图 最 大 化 V 函 数 ， 生 成 和 推断 网 络 则 试图 最 小 化 V 函 数 。 第 一 个 等 号 


右边 的 式 子 ， 反 映 了 在 重 参数 化 技巧 (Re-parameterization Trick) 下 将 
三 个 网 络 组 装 成 一 个 大 网 络 ;第 二 个 等 号 右边 的 式 子 ， 从 判别 器 的 角度 
看 产生 (wz) 的 两 个 不 同 数据 源 。 


¥~ pals) 





图 13.16 ALI 模 型 


实际 中 ， 为 克服 训练 初期 生成 和 推断 网 络 从 判别 网 络 获取 梯度 不 足 
的 问题 ， 我 们 采用 一 个 梯度 增强 版 的 优化 目标 ， 将 原 目 标 函 数 中 的 
log(1-D(G(*) 改 成 -log(D(G(，))。 原 GANs 论 文 指出 ， 这 个 小 变换 不 改 
变 前 后 优化 目标 的 解 ， 但 是 前 者 会 出 现 梯度 饱和 问题 ， 后 者 能 产生 更 明 
显 的 梯度 。 修 改 前 生成 和 推断 网 络 的 优化 目标 为 : 


ait, Bllog D;C, Gr, CNB, {0B -D (Gay, (220), 





(13.21) 

修改 后 的 优化 目标 为 : 
oax By gen OBC- Dy (x, Gan, OD +E,- p ll08 Dy Ge, @.2)], 
(13.22) 


有 了 上 面 的 分 析 ， 就 好 设计 出 一 个 同时 训练 生成 和 推断 网 络 及 判别 网 络 
的 GANs 算 法 。 


05 IRGAN: 生成 离散 样本 


Reddit 论 坛 上 有 一 篇 Goodfellow 发 表 的 帖子 “GANs have not been 
applied to NLP because GANs are only defined for real-valued data... The 
gradient of the output of the discriminator network with respect to the 
synthetic data tells you how to slightly change the synthetic data to make it 
more realistic. You can make slight changes to the synthetic data if it is based 
on continuous numbers. If it is based on discrete numbers, there is no way to 
make a slight change.” 


大 意 是 说 ， 最 初 设计 GANs 是 用 来 生成 实 值 数据 的 ， 生 成 器 输出 一 
个 实数 向 量 。 这 样 ， 判 别 器 对 实数 向 量 每 维 都 产生 一 个 梯度 ， 用 作对 模 
型 参数 的 微小 更 新 ， 持 续 的 微小 更 新 使 得 量变 引起 质变 ， 最 终 达到 一 个 
非常 好 的 解 。 可 是 ， 如 果 生成 器 输出 离散 数据 ， 诸 如 : 搜索 引擎 返回 的 
链接 ， 电 商 网 站 推荐 的 手机 ， DAET eee 更 












但 是 ， 从 
见 图 13.17) 。 HOANI 成 离 
生活 中 很 多 时 候 ， 我 们 遇 到 的 就 是 





KET 
Hoe, itt Pitas 但 
各 型 各 色 的 离散 型 数据 。 


ee = 


图 13.17 离散 数据 


让 我 们 想象 一 个 信息 检索 :给 定 一 个 查询 词 ， 系 统 返 回 与 查 
询 词 相关 的 若干 文档 。 现 在 ， 我 批 用 户 点 击 数据 ， 记 录用 户 在 某 
查询 词 下 点 击 哪些 文档 。 用 户 的 反馈 告诉 我 们 哪些 是 正 样本 ， 为 了 训练 





的 场 



















E 需 负 样 本 ， 即 与 查询 词 不 相关 或 者 
做 法 是 在 全 部 文档 集 上 随机 和 负 末 
标 ， 所 以 随机 


识别 正 负 样本 的 有 监督 模型， 









一 个 新 水 平 因此 ， 我 人 此 在 全 集 做 负 采 样 ， 

if SA SIERE LAIR HAP 样 。 一 个 新 问题 是 ， 这 
种 有 偏 采样 下 ， 采 到 正 样本 的 概率 大 大 增加 ， 我 们 不 能 简单 地 认为 随机 
采样 结果 都 是 负 样 本 。 怎 么 办 呢 ? 2017 年 的 一 篇 论文 提出 了 解决 办 法 ， 
称 之 为 IRGAN[41。 


知识 点 
离散 样本 ， 信 息 检索 ， 负 采样 ， 策 略 梯度 


问题 用 GAN 产生 负 样本 。 


难度 : 交友 交友 交 







i feud 
请 描述 一 下 你 的 设计 思路 ， 指 H eater 
TRASIEN, 生成 模型 还 是 一 个 负 样 本 生成 器 吗 ? 


分 析 与 解答 


PANETT ai A ae nee eee 该 全 
RECEN 习 能 大 
的 生成 器 bet 高 ek H l 
上 ， 在 GANs 的 设计 理念 里 ，“ 负 样本 " 的 表述 不 准确 ， 因为 生成 内 的 其 
正 目标 不 是 找 出 一 批 与 查询 词 不 相关 的 文档 ， 而 是 让 生成 的 模拟 样本 尽 








DLAKA, FARN B bin RE PR CAR ES FDP a 
为 ， 哪 些 是 生成 器 的 伪造 数据 。“ 正 负 "含义 微妙 变化 ， 前 面 与 查询 词 相 
关 或 不 相关 看 成 正 或 负 ， 现 在 真实 数据 或 模拟 数据 也 可 看 成 正 或 负 。 


在 信息 检索 的 场景 下 ， 我 们 遵循 GANs 的 MiniMax 游 戏 框架 ， 设 计 
一 个 生成 式 检索 模型 pg(dlq) 和 一 个 判别 式 检索 模型 (9,)。 给 定 s， 生 成 
模型 会 在 整个 文档 集中 按照 概率 分 布 pg(dlq) 挑 选 出 文档 dp， 它 的 目标 是 
逼近 真实 数据 的 概率 分 布 pve(dIq)， 进 而 迷惑 判别 器 ， 同 时 ， 判 别 模型 
试图 将 生成 器 伪造 的 (q,dg) 从 真实 的 (q,dwwe) 中 区 分 出 来 。 原 本 的 判别 模 
型 是 用 来 鉴别 与 Query 相 关 或 不 相关 的 文档 ， 而 在 GAN 框架 下 判别 模型 
的 目标 发 生 了 微妙 变化 ， 区 分 的 是 来 自 真实 数据 的 相关 文档 和 模拟 产生 
的 潜在 相关 文档 。 当 然 ， 最 终 的 判别 模型 仍 可 鉴别 与 Query 相 关 或 不 相 
关 的 文档 。 我 们 用 一 个 MiniMax 目 标 函 数 来 统一 生成 模型 和 判别 模型 : 














ee = min max XE, 44, log Dy(d | 4,)]+ By. yay, log- D(A | 4,)))) 
(13.23) 


其 中 Ds(d14,)=Sigmoid(j,(q,d))。 这 是 一 个 交 葵 优化 的 过 程 ， 固 定 判别 
器 ， 对 生成 器 的 优化 简化 为 : 


0= Wr DE sllog(l + exe, @,-A)))] 


(13.24) 


问题 来 了 ， 如 果 d 连 续 ， 我 们 沿用 原 GANs 的 套路 没 问题 ， 对 每 


hag ARKI, EPROP A e pta 下 的 


损失 函数 Bu-wtuu[logQ+exp(fs(gd)]， 损 失 函 数 对 示 的 梯度 会 回 传 给 生 
成 di 的 生成 器 。 但 是 ， 如 果 d 离 散 ， 损 失 函 数 对 d 是 没有 梯度 的 ， 我 们 拿 
什么 传 给 生成 器 呢 ? 


强化 学 习 中 的 策略 梯度 方法 揭示 了 期 望 下 损失 函数 的 梯度 的 另外 一 
种 形式 [52。 我 们 用 JG(qu) 表 示 给 定 q 下 损失 函数 的 期 望 ， 即 : 





I° (9) := Bapata log(l + exp(Js (gd) 
(13.25) 


我 们 暂 不 用 蒙特 卡 洛 采 样 〈 即 采样 样本 之 和 的 形式 ) 去 近似 期 望 ， 而 是 
直接 对 期 望 求 梯度 


Vol (dn) = Bi pyta OBU + exp(folg,s dVolog Pod | 4, )], 
(13.26) 


梯度 仍 是 期 望 的 形式 ， 是 对 数 概率 函数 log pg(dlqw) 对 9 的 梯度 带 上 权重 
log + exp(s(g,,9))) 的 期 望 ， 我 们 再 用 蒙特 卡 洛 采样 去 近似 它 ; 


Vol (dy) = i D log + expl f; (a,+d:))V olog p, (d, |4,) 


(13.27) 


其 中 K 为 采样 个 数 。 此 时 ， 我 们 就 能 估计 目标 函数 对 生成 器 参数 9 的 梯 
度 ， 因 为 梯度 求解 建立 在 对 概率 分 布 函数 pe(dk lan) (强化 学 习 中 称 策略 
函数 ) 求 梯度 的 基础 上 ， 所 以 称 为 策略 梯度 。 


欲 得 到 策略 梯度 ， 我 们 必须 显 式 表达 pe(dk |lq)， 这 与 原 GANs 的 生 
成 器 不 同 。 原 GANs 不 需要 显 式 给 出 概率 分 布 函数 的 表达 式 ， 而 是 使 用 
了 重 参数 化 技巧 ， 通 过 对 噪音 信号 的 变换 直接 给 出 样本 ， 好 处 是 让 生成 
过 程 变 得 简单 ， 坏 处 是 得 不 到 概率 表达 式 ， 不 适 于 这 里 的 生成 器 。 这 里 
直接 输出 的 不 是 离散 样本 ， 而 是 每 个 离散 样本 的 概率 。 一 方面 ， 生 成 器 
的 输入 端 不 需要 引入 噪音 信号 ， 我 们 不 想 让 概率 分 布 函 数 也 变 成 随机 变 
Hs 另 一 方面 ， 生 成 器 的 输出 端 需要 增加 抽样 操作 ， 依 据 所 得 概率 分 布 
生成 K 个 样本 。 如 果 用 神经 网 络 对 生成 器 建 模 ， 那 么 最 后 一 层 应 是 
Softmax 层 ， 才 能 得 到 离散 样本 概率 分 布 。 在 判别 器 的 构建 中 ， 输 入 的 
是 离散 样本 的 n 维 向 量 表示 ， 如 一 个 文档 向 量 每 维 可 以 是 一 些 诸如 
BM25，TF-IDF，PageRank 的 统计 值 ， 其 余部 分 GANs 的 做 法 。 


最 后 ， 训 练 过 程 与 原 GANs 的 步骤 一 样 ， 遵 循 一 个 MiniMax 的 优化 
框架 ， 对 生成 器 和 判别 器 交 蔡 优 化 。 优 化 生成 器 阶段 ， 先 产生 K 个 样 


















本 ， 采 用 策略 梯度 对 生成 模型 参数 进行 多 步 更 新 ;优化 : ane 也 
要 先 产生 K 个 样本 ， 作 为 负 样本 与 真实 数据 的 样本 共 | 
论 上 ， 优 化 过 程 会 收敛 到 一 个 纳什 均衡 点 ， i 
实数 据 的 Query-Document 相 关 性 分 布 prue(dlq)， 这 个 生成 模型 被 称 为 生 
成 式 检索 模型 《Generative Retrieval Models) ， 对 应 于 有 监督 的 判别 式 
检索 模型 (Discriminative Retrieval Models) 。 





06 SeqGAN: 生成 文本 序列 

















很 多 时 候 ， 我 们 想得到 更 多 细节 ， an 
是 从 文档 集中 选 出 文章 。 
TAZARA aram 


句 》， nue ae an, 
景 ， 从 900 句 中 挑选 最 恰当 “4 

AMIEL HU, ERAH, PAR 
子 ， 此 时 你 不 能 将 句子 看 成 点 ， 不 能 死记 硬 
入 句子 结构 来 选 词 造句 。 生 成 一 句 话 
序列 中 每 个 字 是 最 小 的 基本 单位 。 也 
散 的 ， 生 成 器 要 做 的 不 是 “ 选 " 句 子 ， 而 是 ' 


2017 年 一 个 名 为 SeqGAN 的 模型 被 提出 El， 用 来 解决 GANs 框 架 下 
生成 文本 序列 的 问题 ， 进 一 步 拓展 GANs 的 适用 范围 。 该 文章 借鉴 了 强 
化 学 习 理论 中 的 策略 和 动作 值 函数 ， 将 生成 文字 序列 的 过 程 看 成 一 系列 
选 词 的 决策 过 程 ，GANs 的 判别 器 在 决策 完毕 时 为 产生 的 文字 序列 打 
分 ， 作 为 影响 决策 的 奖励 [4 。 








知识 点 


循环 神经 网 络 ，LSTM/GRU， 语 言 模型 (Language Model) ， 奖 励 / 


长 期 奖励 ， 策 略 梯度 ， 动 作 值 函数 


问题 1 如 何 构建 生成 器 ， 生 成 文字 组 成 的 序列 来 表示 句 
子 ? 





WERE: kerrie 
分 析 与 解答 
假定 生成 器 产生 一 个 定 长 〈 记 T) 的 句子 ， 即 文字 序列 
Nr = (5,… 二 )，yiEy， 其 中 y 表 示 一 个 词 ，y 表 示 词 库 。 一 般 地 ， 序 





列 建 模 采用 RNN 框 架 ( 见 图 13.18) ,具体 单元 可 以 是 LSTM 或 GRU， 甚 
至 带 上 注意 力 机 制 。 


h= gha), 
(13.28) 
P(e |XX) = z, (h,) = Softmax(Wh, +c), 
(13.29) 
及 一 及 | 区) 
(13.30) 


EHR FAT RNIN, h BANDAR: 
生成 词 ， ,的 表示 向 量 ，% 和 有 ,共同 作为 g 的 输入 ， 计 
态 ht。 如 果 g 是 一 个 LSTM 单 元 ， 隐 状态 要 包含 一 个 用 f 
态 A 是 一 个 d 维 向 量 ， 经 线性 变换 成 为 一 个 四维 向 量 ， 再 经 过 一 个 

Softmax 层 ， 计 算出 选择 词 的 概率 分 布 zx， 并 采样 一 个 词 x。 概 率 分 布 zx 
是 一 个 条 件 概率 PC laot), BA y 的 表示 向 量 ，x 作 为 一 个 






% 采 用 前 一 步 








空 字符 或 RNN 头 输入 暂 忽 略 ， 所 以 条 件 概率 写成 PC ViDa), HETE 
成 文字 序列 Zi:r 的 概率 为 : 





Pr) = PO» Yor) = PWP | Yi) POT Divers ra. 


(13.31) 
实际 上 ，RNN 每 个 单元 的 输出 就 是 联合 概率 分 解 后 的 各 个 条 件 概率 ， 根 
据 每 个 条 件 概率 挑选 一 个 词 ， 依 次 进行 ， 最 终 得 到 一 个 长 度 为 7 的 句 
Fe. 
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图 13.18 序列 建 模 LSTM 枢 架 


问题 2 训练 序列 生成 器 的 优化 目标 通常 是 什么 ? GANS 
框架 下 有 何不 同 ? 


难度 ， 交 六 太太 六 
分 析 与 解答 


GANs 框 架 下 有 一 个 生成 器 Ge 和 一 个 判别 器 D。。 对 于 本 问题 ， 生 成 
器 的 目标 是 生成 文字 序列 ， 高 度 地 模仿 真实 句子 ， 判 别 器 的 目标 是 区 分 
哪些 是 生成 器 给 的 句子 ， 哪 些 是 真实 数据 集中 挑 的 句子 。 通 俗 地 讲 ， 就 


是 机 器 模仿 人 造句 ， 一 方面 要 让 模仿 尽 可 能 像 ， 一 方面 要 辨认 哪些 是 机 
器 说 的 、 哪 些 是 人 说 的 。 前 者 工作 由 生成 器 负责 ， 后 者 工作 则 交 给 判别 
器 ， 生 成 器 的 工作 成 果 要 受到 判别 器 的 评判 。 判 别 器 的 优化 目标 为 : 


max Erp, log DO] + Bro, ogli- Dy, 
(13.32) 
这 和 原 GANs 中 判别 器 的 优化 目标 一 样 。 

如 果 没 有 GANs， 生 成 器 是 一 个 普通 的 序列 生成 器 ， 通 常会 采取 什 
么 样 的 优化 目标 来 训练 它 ? 熟悉 语言 模型 的 人 ， 会 想到 最 大 似 然 估 计 ， 
Bp: 

max 3 log p09:0) 
(13.33) 


…, 苏 表示 数据 集中 第 个 句 





这 需要 有 一 份 真实 数据 集 ，2 = 
子 ， 生 成 器 要 最 大 化 生成 它们 «SREY 可 假设 句子 
独立 同 分 布 ， 但 是 从 句子 到 i 一 句 话 内 有 强 依赖 性 ， 不 能 候 
定 它们 相互 独立 ， 全 再 二 最 终 得 到 : 








mSlog p00)+ tlog p(y 


(13.34) 
转变 为 最 大 化 一 个 个 对 数 条 件 概率 之 和 。 


GANs 框 架 下 ， 生 成 器 的 优化 目标 不 再 是 一 个 可 拆 解 的 联合 概率 ， 
在 与 判别 器 的 博弈 中 ， 以 假 乱 真 欺 骗 判 别 器 才 是 生成 器 的 目标 。 判 
的 评判 针对 一 个 完整 句子 ， 生 成 器 欲 知 判别 器 的 打分 ， 尼 
话 ， 不 能 在 生成 一 半 时 就 拿 到 判别 器 打分 ， 故 不 能 像 最 大 似 
拆 解 目标 式 ， 转 为 每 个 词 的 优化 。 而 且 ， 训 练 生 成 器 时 ， 也 要 
器 ， 对 二 者 的 训练 交 蔡 进行 。 固 定 判别 器 ， 生 成 器 的 优化 目标 












minByo, log =D, OO], 
(13.35) 


表面 上 看 ， 这 与 原 GANs 中 生成 器 的 优化 目标 一 样 ， 问 题 在 于 生成 器 输 
出 的 是 离散 样本 ， 一 个 由 离散 词组 成 的 离散 句子 ， 不 像 原 GANs 中 生成 
图 片 ， 每 个 像素 都 是 一 个 连续 值 。 原 GANs 用 重 参数 化 技巧 构造 生成 
器 ， 直 接 对 采样 过 程 建 模 ， 不 去 显 性 刻画 样本 概率 分 布 。 


上 一 节 的 IRGAN， 生 成 器 生成 文档 序号 d 这 类 离散 数据 ， 不 能 用 原 
GANs 的 重 参数 化 技巧 。 离 散 数据 的 特性 ， 让 我 们 无 法 求解 目标 函数 对 
d、d 对 生成 器 参数 9 的 梯度 。 而 且 ， 期 望 B4-6o 的 下 脚 标 里 包含 参数 0， 
需 对 期 望 求 梯度 YoBs-co["]， 不 得 不 显 式 写 出 概率 函数 p(4d | G58), 


在 SeqGAN 中 ， 生 成 器 生成 的 文本 序列 更 离散 ， 序 列 每 个 元 素 都 是 
离散 的 ， 如 图 13.19 所 示 。 联 想 强 化 学 习 理论 ， 可 把 生成 序列 的 过 程 看 
串 动作 ， 每 步 动作 是 挑选 一 个 词 ， 即 动作 o=y， 每 步 状态 为 已 

选 词组 成 的 序列 前 织 ， 即 状态 5, = 0,…,1)， 最 后 一 步 动作 后 得 到 整 
个 序列 (六 ,长 ,…, 志 )。 接 着 ， 判 别 器 收 到 一 个 完整 句子 ， 判 断 是 真是 假 
并 打分 ， 这 个 分 数 就 是 生成 器 的 奖励 。 训 练 生成 器 就 是 要 最 大 化 奖励 其 
望 ， 优 化 目标 为 














max Ey, -al-log(l— D, 01), 
(13.36) 
或 梯度 增强 版 的 


max Ey, a, llog D; Yr), 
(13.37) 
其 中 log Dy Nr i EA RAE AY ED 6 
强化 学 习 里 有 两 个 重要 概念 ， 策 略 和 动作 值 函数 。 前 者 记 


Gala |s)= p(a1s;9)， 表 示 状态 s 下 选择 动作 a 的 概率 ， 体 现 模型 根据 状 
态 做 决策 的 能 力 ， 后 者 记 Qi(sa)， 表 示 状 态 s 下 做 动作 oa 后， 根据 策略 Ge 





完成 后 续 动作 获得 的 总 奖励 期 望 。 结 合 本 例 ， 前 T-1 个 词 已 选 的 状态 下 
选 第 T 个 词 的 Qa(s,q) 为 : 


= Yra = 1)=log D,a), 
(13.38) 
总 奖励 期 望 为 : 


By, al? ra, Pr) = EGO 1s0). Gor | Yr) rs yr) 


(13.39) 
上 式 包含 了 各 序列 前 绥 的 状态 下 策略 ， 以 及 一 个 最 终 的 奖励 。 如 果 对 此 
式 做 优化 ， 序 列 每 增加 一 个 长 度 ， 计 算 复杂 度 将 呈 指 数 上 升 。 我 们 不 这 
么 干 ， 利 用 前 后 状态 下 动作 值 函数 的 递归 关系 : 


Oe 8) = EG Ora KD Your Yi) 


(13.40) 


将 序列 末端 的 Q"08r EBNF AI IAI. (SoM), BEAL 
生成 器 优化 目标 : 


IO) = EGO | 500" 034) 


ao 和 
《13.41) 


该 优化 目标 的 含义 是 ， 在 起 始 状态 so 下 根据 策略 选择 第 一 个 词 y,， 并 在 
之 后 依旧 根据 这 个 策略 选 词 ， 总 体 可 得 奖励 的 期 望 。 此 时 序列 末端 的 奖 
励 成 了 序列 初 端的 长 期 奖励 。 
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图 13.19 SeqGAN 示 意图 


问题 3 有 了 生成 器 的 优化 目标 ， 怎 样 求解 它 对 生成 器 参 
数 的 梯度 ? 


难度 : 友 友 友 丰 去 


分 析 与 解答 


我 们 已 有 目标 函数 /0)， 现 在 对 它 求 梯度 VaJ(9)。 此 优化 目标 是 一 
个 求 和 ， 里 面包 含 两 项 :策略 Gg 和 动作 值 函 数 Q9， 它 们 都 含 参数 9， 根 
FRAUD =u!) HUWA), ETRO s 
VQ (59.1). SIRGANA F], IRGAN 中 也 有 两 项 : 策略 和 即时 奖励 ， 
但 它 没有 长 励 ， 不 用 计算 动作 值 函 数 ， 而 且 即 时 奖励 不 依赖 于 策 

与 参数 6 无 关 ， 只 需求 策略 对 8 的 梯度 。 但 是 在 SeqGAN 里 ， 策 
9 的 梯度 和 动作 值 函数 对 8 的 梯度 都 要 求 。 这 里 Cs (3 | 50) 是 一 
率 函 数 ， 计 算 YeCGs( | 3) 不 难 ， 但 是 (so. HIE? 如 何 计算 YeO (80.9) 








这 确实 是 一 个 不 小 的 挑战 。 前 面 已 给 出 Q8 的 递归 公式 : 
Waad) = EG Ora | Yr) MaYa) 


(13.42) 


现在 我 们 推导 Yev(O): 


VIO) = YW Gg 180) 2 (501) + Gy (4 180) * VoO" os) 
-2 [vao 15) + 0° (5.34) + G0 30) * Vo ( LEO 1130") 


(13.43) 


BEH, RAET REAO Oa VE RATAFIO Oud), 
最 终 可 得 : 


VoI(O)= DE, 05 [Bee n) aso] 
a ict 


(13.44) 
其 中 记 Yio = So. 


第 14 章 ”人工 智 能 的 热门 应 用 








随 着 机 器 学 习 的 日 趋 “人 工 智能 词 似乎 占 尽 了 世人 的 眼 
球 一 AlphaGo 一 鸣 惊 人 ， 自 动 进 生活 、 智 能 机 器 人 逐渐 成 为 居家 
lh 
分 的 












到 我 们 的 身边 ， 与 生活 中 的 一 切 产生 密 不 可 


前 13 章 通过 一 系列 面试 题 理 清 ee 涵盖 了 





i 实践 技巧 以 及 适用 场景 ， 才 能 在 实际 问题 中 因 地 
制定， 量体裁衣， 选择 合适 的 解决 方案 。 


之 事 ， 闻 者 不 如 见 者 知之 为 详 ， 见 者 不 如 居 者 知之 为 尽 "。 本 
章 将 着 重 实践 算法 、 模 型 、 理 论 于 真实 世界 的 广 表 天 地 ， 涵 盖 广告 、 游 
戏 、 自 动 驾 驶 、 机 器 翻译 、 人 机 交互 等 诸多 领域 ， 为 读者 揭 开 触手 可 及 
的 人 工 智能 那 层 神秘 的 面纱 。 





01 计算 广告 


告 是 当今 互联 网 商业 变现 最 重要 的 模式 之 一 。 数 字 广告 是 大 部 分 

互联 网 巨头 最 主要 的 现金 流 。 根 据 Google 母 公司 Alphabet 2017 年 第 一 季 
度 的 财报 ， 广 告 总 营 收 214.11 亿 美元 ， 占 其 总 营 收 的 86.5%。Facebook 
的 广告 收入 占 比 更 加 夸张 ， 达 到 惊人 的 98%， 可 以 说 Facebook 就 是 一 家 
不 折 不 扣 的 广告 公司 。 除 此 之 外 ， 百 度 、 阿 里 巴巴 、 腾 讯 的 广告 部 门 也 
均 是 各 公司 的 核心 部 门 。 阿 里 妈妈 、 腾 讯 广 点 通 、 百 度 凤 集 的 广告 部 
门 ， 无 论 是 招聘 门槛 还 是 内 部 重视 程度 都 很 高 。 

从 权威 媒体 机 构 Zenith 2017 年 发 布 的 《全 球 30 大 媒体 主 》 排 名 来 看 
《 见 图 14.1) ， 互 联网 公司 更 是 占据 了 半壁 江山 。 除 了 Alphabet 和 
Facebook 雄 霸 前 两 位 外 ， 百 度 排 第 4 名 ， 腾 讯 排 第 14 名 。 传 统 媒体 中 排 
名 最 高 的 是 康 卡 斯 特 〈Comcast) 媒体 集团 ， 届 居 第 三 位 。 排 名 第 20 位 
的 CCTV 也 成 为 了 中 国 排名 最 高 的 传统 媒体 主 。 


a | 
[lw oe | 
[oamcmnm wm | 


a > | osmvcmmmeaw | 
Los [xl | 
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图 14.1 全 球 广告 收入 最 高 的 30 大 媒体 
数字 广告 的 发 展 史 还 要 追溯 到 1995 年 。 当 时 ， 以 雅虎 为 代表 的 门户 


网 站 把 网 页 当 作 线 上 杂志 进行 售卖 ， 并 按照 约定 的 形式 进行 投放 。 那 
时 ， 数 字 广告 与 传统 媒体 的 广告 售卖 方式 非常 相似 ， 只 是 把 内 容 从 线 下 
搬 到 了 线 上 。 从 1998 年 开始 ， 以 谷歌 为 代表 的 搜索 引擎 引领 了 潮流 。 与 
门户 网 站 有 所 不 同 ， 搜 索引 擎 的 商业 变现 采用 的 是 与 搜索 服务 相 结合 的 
付费 搜索 模式 ， 即 根据 用 户 的 即时 兴趣 (搜索 关键 词 》 定 向 投 送 广告 。 
这 种 广告 一 般 采 用 竞价 的 方式 进行 售卖 ， 广 告 主 可 以 根据 用 户 的 实时 兴 
趣 对 广告 投放 效果 进行 优化 ， 因 而 与 门户 网 站 相 比 ， 广 告 的 投放 效果 具 
有 精准 度 更 高 的 特点 。2005 年 以 后 ， 在 线 视频 业务 的 流量 不 断 攀 升 ， 代 
表 网 站 有 YouTube、Hulu 等 ， 由 于 其 广告 投放 模式 与 传统 电视 广告 类 
似 ， 不 断 蛋 食 着 传统 电视 广告 的 市 场 。 


互联 网 广告 模式 之 所 以 得 到 各 大 广告 商 的 青睐 ， 有 以 下 几 点 原因 。 
首先 ， 用 户 花 在 互联 网 上 的 时 间 越 来 越 多 ， 广 告 主 为 了 抓 住 年 轻 的 一 代 
用 户 ， 必 须 加 大 互联 网 广告 的 投入 AE ane Ne 
在 Google 只 需 100 美 元 自助 开户 Hiti 村 ， 广 告 投 
放 容易 实现 个 性 化 ， 并 经 由 AJB 测 试 
ARER EREDE, HEEN 
关注 。2008 年 ， 在 第 十 九 届 ACM-SL 
研究 员 Andrei Broder 提 出 了 计算 广告 





















境 、 广 告 和 受众 三 者 的 最 佳 匹配 。 
在 介绍 计算 广告 的 常用 算法 模型 之 前 ， 先 对 互联 网 广告 的 主要 产品 
类 型 和 商业 模式 进行 介绍 。 这 里 按照 互联 网 广告 的 商业 模型 ， 将 其 分 为 
合约 广告 、 竞 价 广告 、 程 序 化 交易 广告 等 类 型 。 


合约 广告 一 般 在 门户 网 站 和 视频 网 站 中 较为 常见 ， 例 如 ，Hulu 广 告 
收入 的 绝 大 部 分 来 自 于 合约 广告 。 这 是 由 于 用 户 与 视频 广告 的 交互 较 
点 击 等 反馈 数据 ， 不 宜 直 接 评估 后 续 的 转化 效果 。 合 约 广告 的 
户 通常 是 品牌 类 广告 主 ， 它 们 的 主要 诉求 是 向 公众 宣传 自己 的 品牌 形 
象 ， 并 不 显 式 地 评估 后 续 的 转化 效果 。 合 约 广告 一 般 以 CPM (Cost per 
mille, PARERE) 进行 结算 ， 即 每 完成 一 千 次 曝光 流量 平台 向 广告 
主 收取 固定 的 成 本 。 图 14.2 (a) 在 Hulu 网 站 上 观看 美剧 《实习 医生 格 
WH) (Grey’s Anatomy) 时 ， 浏 览 器 展示 的 视频 广告 截图 。 


竞价 广告 最 重要 的 形式 是 搜索 广告 。 搜 索 广告 的 标的 物 是 关键 词 ， 
每 个 搜索 广告 可 以 对 一 些 特定 的 关键 词 进行 出 价 。 用 户 输入 的 查询 与 广 
















匹配 ， 检 索 出 所 有 符合 : 
搜索 的 网 页 结果 一 起 展示 


索 广告 一 般 按 点 击 结算 ， 在 

价 收费 ， 没 有 点 击 则 不 收费 ， 因 此 点 
关 重 要 。 图 14.2 (b) 展示 了 在 百度 中 搜 
页 面 ， 其 中 第 一 条 即 竞价 系统 所 选择 的 广 


程序 化 交易 广告 能 够 让 广告 主 更 加 灵活 地 选择 自己 的 受众 群体 和 曝 

光 | 在 每 一 次 展示 机 会 到 来 之 时 ， 广 告 交易 平台 将 流量 的 相关 信 
给 台 (Demand Side Platform, DSP) ， 需 求 

“ 告 主 进行 出 价 ， 价 高 者 得 : 
PA (Cost Per Action， 每 





入 并 选择 其 中 的 
排 在 网 






















素 。 图 14.2 Co) oN 
机 会 而 展示 的 一 个 商品 广告 。 


F 


INFINITI. 


(a) 合约 广告 





(b) 竞价 广告 


1279% 





Co) 程序 化 交易 广告 
图 142 常见 的 广告 类 型 


Crem eaten 上 有 所 区 别 ， 比 如 合约 广告 一 般 不 
需要 考虑 广告 所 以 没有 CTR 模 块 : 程序 化 交易 广告 需要 对 
j 方 


AMEE DRENE 但 总 体 


ah 
AF ERE 
i 序 和 选择 。 一 次 广告 投 训 S 
记录 将 被 流 式 计算 UIRD AEN M ENGRUNA H 
志 中 ， 供 分 布 式 计算 平台 稍 后 使 用 。 


广告 系统 的 各 个 算法 模块 ， 不 仅 与 Spark、HDFS、Kafka 等 大 数据 

具 息息相关 ， SUK KRUR 习 的 知识 。 如 果 要 成 为 广告 算法 工程 

要 对 广告 的 商业 模型 ， 各 模块 的 业务 

功能 有 较 深 的 了 解 。 下 面 就 对 广告 系统 各 个 模块 涉及 的 算法 和 机 器 学 习 
知识 进行 逐一 介绍 。 
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图 143 广告 系统 架构 图 


于 用 户 画像 


用 户 画 像 是 计算 广告 学 的 核心 组 成 部 分 之 一 ， 在 合约 广告 、 搜 索 广 

、 程 序 化 交易 广告 等 产品 形式 中 广泛 存在 。 在 合约 广告 中 ， 广 告 主 可 
nt 适 的 定向 条 件 ， 以 节省 成 本 ;搜索 广 
化 交易 广告 可 以 根据 用 户 的 画像 对 该 用 户 对 各 广告 的 点 击 率 和 
He 进行 更 精确 的 预 估 ， 从 而 优化 整体 的 投放 效果 。 


和 非 监督 学 习 技术 在 用 户 画像 中 都 得 到 了 广泛 的 应 用 。 例 
可 题 就 是 一 个 典型 的 习 问 题 。 我 们 根据 用 户 填写 的 
可 以 得 到 一 用 户 的 性 别 ， 而 对 于 另外 一 o ANER 


E Et 
性 。 为 了 满足 广告 主 的 类 似 需求 ， 我 们 需要 通过 用 户 过 去 的 
已 有 特征 对 用 户 性 别 进行 建 模 和 预测 ， 比 如 通过 某 个 用 户 经 常 观 

球 、 拳 击 等 项 目的 历史 行为 ， 预 测 出 他 是 男性 的 概率 更 高 ， 对 于 其 他 的 
用 户 标签 也 是 类 似 的 。 只 要 我 们 有 了 足够 多 的 标注 样本 ， 都 可 以 用 监督 
学 习 的 方式 对 用 户 标签 进行 建 模 和 预测 。 


的 模型 可 以 采用 逻辑 回归 、 支 持 向 量 机 、 决 策 树 、 随 机 森 
、 梯 度 提升 决策 树 、 前 向 神经 网 络 等 ， 采 用 的 特征 因 具 体 的 业务 而 
SE 例如 ， 在 搜索 引擎 中 ， 可 以 根据 用 户 的 搜索 和 浏览 历史 来 对 用 户 的 





































ie, WANES EPH A 
司 作为 单独 的 一 维特 征 ， 最 终 分 类 : 
4.4 所 示 。 可 以 发 现 ， 在 预测 女性 时 ， 
男性 来 说 ， 较 为 显著 的 
寺 果 还 是 比较 符合 直 





Remi tee 食物 、 等 ; 
特征 是 体育 、 车 、 因 特 网 等 。 所 以 ， 对 特征 
觉 的 。 
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图 144 ”男性 和 女性 的 文本 特征 


另外 一 大 类 用 户 画 像 方法 是 采用 非 监 督学 习 。 非 监督 学 习 的 目的 是 
发 现 数据 本 身 存在 的 规律 ， 并 不 需要 使 用 带 标注 的 数据 。 根 据 用 户 以 往 
的 行为 和 已 有 的 特征 ， 我 们 可 以 将 用 户 聚 为 一 些 特定 的 类 别 。 对 于 每 一 
类 用 户 ， 虽 然 很 难 描述 他 们 所 对 应 的 确切 标签 ， 但 是 可 以 知道 他 们 拥有 
很 高 的 相似 度 ， 并 据 此 预期 他 们 对 广告 具有 某 种 相似 的 兴趣 。 这 样 ， 通 
过 应 用 聚 类 技术 ， 并 将 得 到 的 聚 类 结果 用 于 点 击 率 预 估 、 广 告 排序 与 选 
择 ， 通 常 能 够 带 来 明显 的 效果 提升 。 常 用 的 聚 类 方法 有 K 均 值 、 高 斯 混 
合 模型 、 主 题 模型 等 ， 它 们 都 属于 非 监督 学 习 的 范畴 。 


参考 文献 [46] 是 一 个 用 非 监督 学 习 的 方法 挖掘 用 户 兴趣 主题 的 例 
子 。 该 论文 结合 了 用 户 在 移动 端的 搜索 内 容 和 上 下 文 特征 〈 时 间 、 地 点 
等 ) ， 利 用 主题 模型 对 用 户 的 行为 数据 进行 建 模 。 图 14.5 展 示 了 两 个 挖 
掘 出 来 的 主题 实例 ， 其 中 左边 的 主题 可 以 理解 为 在 工作 日 的 早晨 搜索 股 
票 的 相关 信息 ; 右边 的 主题 可 以 理解 为 在 周末 的 晚上 搜索 聚会 的 酒吧 ; 
IsRelevant 表 示 该 特征 的 取 值 与 我 们 对 主题 的 解读 是 否 相关 ， 这 是 一 种 
人 工 的 判断 。 可 以 发 现 ， 绝 大 多 数 的 特征 都 是 与 主题 相关 的 ， 说 明 主 题 
挖掘 的 效果 较 好 。 
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图 145” 非 监督 学 习 挖 据 用 户 兴趣 主题 
里 点 击 率 预 估 


i 击 率 预 估 是 效果 类 广告 中 最 重要 的 算法 模块 之 一 。 为 了 优化 广告 

效果 ， 首 先 要 对 广告 展示 之 后 的 效果 《〈 即 点 击 率 、 转 化 率 等 ) 有 一 个 准 

确 的 判断 ， 才 能 据 此 进行 合理 的 选择 与 投放 。 在 搜索 广告 中 ， 一 般 通过 

广告 的 点 击 数量 进行 效果 的 评估 和 结算 ， 因 此 点 击 率 预 估 的 准确 性 在 效 

ea 如 果 最 终 评估 效果 的 指标 是 转化 ， 那 么 
需 时 3 


a ， 转化 
， 很 难 直 接 利用 转化 数据 对 模型 进行 训练 ， 所 以 经 
次 跳 转 、 加 入 购物 车 等 行为 进行 模 。 对 转化 、 = 次 跳 


以 Sau E MAID 常 CMO. 


预 估 可 以 抽象 成 为 一 一 个 二 分 类 问题 。 它 所 解决 的 问题 是 : 给 
求 所 外 配 的 广告 ， 预测 广告 展示 之 后 获得 的 
标注 可 以 从 实际 的 投放 数据 中 获得 ， 在 历史 的 投放 结果 中 ， 获 得 
的 记录 标注 为 1， 其 余 标注 为 0。 图 14.6 为 点 击 率 预 估 模 型 中 的 一 
AAAA ERN RUN. 左边 的 方 框 中 列 出 了 这 条 数据 记录 对 
应 的 特征 ， 包 括 与 用 户 (User tags) 、 上 下 文 (Date, City, Ad 
exchange, Domain 、 广 告 主 (Ad Td) 、 创 意 CAd size) 等 相关 的 
特征 。 在 训练 记录 了 果 这 条 记录 最 终 发 生 了 点 击 ， 则 记录 为 1， 否 
则 记录 为 0， 在 预测 时 ， 我 们 需要 预测 这 条 记录 发 生 点 击 的 概率 ， 即 
CTR (Click-Through Rate) 。 
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: 击 素 预 信 的 数据 记录 


点 击 率 预 估 的 公开 数据 集 可 以 参见 2014 年 Criteo (全 球 领先 的 DSP 
公司 ) 在 Kaggle 上 发 起 的 CTR 预 估 竞 赛 。 训 练 集 是 连续 7 天 的 Criteo 广 告 
展示 数据 ， 里 面包 含 点 击 和 非 点 击 数据 ， 总 共 4000+ 万 条 ， 其 中 对 负 样 
本 进行 了 4 接着 训练 集 之 后 一 天 的 广告 展 
示 数 据 ， 总 共 600+ 万 条 ， 采 样 方式 和 训练 集 一 致 


点 击 率 预 估 主 要 分 为 样本 采样 、 特 征 抽取 与 组 合 、 模 型 训练 、 模 型 
评估 等 步 又 ， 下 面 分 别 进行 介绍 。 





。 样本 采样 


在 点 击 率 预 估 时 ， 通 常 要 对 负 样本 进行 这 是 因为 在 点 击 率 预 
类 问题 中 ， 点 击 数 通常 要 远 远 小 于 总 曝光 数 〈PC 端 展示 广告 
一 般 在 0.19% 一 196 之 间 ) ， 这 将 导致 正 负 样本 严重 不 均衡 。 如 

率 为 0.19%， 那 么 简单 地 将 所 有 样本 都 预测 为 负 样 本 ， 分 类 器 的 准 
也 可 以 达到 99.9%， 这 在 一 些 分 类 器 和 训练 算法 中 会 存在 问题 。 更 
重要 的 是 ， 一 条 - 会 a be TER ARLE 如 果 我 们 
能 够 对 负 样 本 进行 采样 ， 时 间 ， 能 够 在 同样 的 训练 
pu 处 理 更 多 的 正 样本 AAR MEERA 下 取得 更 好 的 效 
要 指出 的 是 ， 样 本 在 采样 之 后 会 改变 数据 的 分 布 ， 因 此 在 预 估 点 
eae vere 
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。 特征 抽取 与 组 合 








特 是 实际 上 下 党 
重要 ， 里 面包 含 着 各 种 Rae 特征 工 
程 的 好 坏 将 对 模型 的 效果 产生 决定 性 的 影响 ， 并 花 了 算法 工程 师 大 部 分 
的 时 间 。 在 点 apih, hit 之 问 的 交互 非常 重要 ， 由 特 
征 表达 了 广告 的 性 质 ， 另 一 it 
两 类 特征 的 交互 ， 才 能 更 加 ? Mises SOMITE, 传统 的 机 
模型 无 法 直接 捕捉 到 两 类 特征 之 间 的 交互 ， 因 此 需要 显 式 地 进行 特征 交 
叉 ， 即 将 任意 两 个 特征 组 合 起 来 作为 一 维新 的 特征 。 这 样 做 可 能 会 遇 到 
维度 爆炸 的 问题 ， 由 于 我 们 并 不 知道 哪 的 交互 最 好 捕捉 ， 因 此 需 
peta dell uate 实践 中 ， 采用 梯度 提升 决策 树 和 分 解 
预 处 理 。 在 梯度 提升 决策 树 中 ， 每 一 棵 决策 树 的 每 一 
的 路 径 可 以 作为 一 种 显著 的 特征 组 合 ， 然 后 将 所 有 的 
EAIA EIMA RETIA ( 见 图 14.7》。 这 是 
Facebook 在 2014 年 发 表 的 工作 [加 ， 后 来 被 证 明 在 很 多 应 用 场景 中 都 取得 
了 不 错 的 效果 。 对 于 分 解 机 来 说 ， 每 个 特征 可 以 被 分 解 成 相同 空间 中 的 
K 维 向 量 表 示 ， 它 们 的 交互 强 弱 可 以 通过 向 量 的 点 积 表达 ， 因 此 将 特征 
的 向 量 表示 作为 逻辑 回归 模型 的 输入 ， 可 以 帮助 算法 更 好 地 捕捉 到 特征 
交互 对 点 击 率 的 影响 。NTU CSIE ML Group 在 Criteo 发 起 的 CTR 预 估 竞 
赛 中 ， 有 团队 同时 利用 梯度 提升 决策 树 和 分 解 机 进行 特征 工程 ， 获 得 了 
竞赛 的 第 一 名 。 

























Farme 





| anona 


图 14.7  FacebookttiCTR it (tri 


进入 到 深度 学 习 时 代 ， 深 度 神经 网 络 为 我 们 提供 了 一 种 更 加 自动 地 
抽取 组 合 特征 的 方式 ， 可 以 直接 端 到 端 地 对 点 击 率 进行 建 模 和 预测 。 图 








14.8 是 一 种 端 到 端的 深度 CTR 预 测 模型 ， 其 中 原始 输入 为 最 简单 的 
编码 ， 接 着 通过 预 训 练 分 解 机 将 输入 表示 为 嵌入 的 向 量 ， 然 后 通 i 
全 连接 层 ， 最 后 应 用 Sigmoid 激 活 函数 输出 点 击 率 的 预测 结果 91。 
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图 14.8 深度 CTR 预 估 模 型 


在 实际 的 产品 线 中 ， 我 们 可 能 不 方便 推翻 以 前 的 架构 ， 全 部 改 为 利 
用 端 到 端的 深度 学 习 模型 对 点 击 率 进 行 建 模 。 这 时 ， 将 深度 学 习 模型 输 
出 的 中 间 结 果 当 作 高 层 语义 特征 ， 输 入 到 传统 的 浅 层 机 器 学 习 模 型 中 ， 
通常 也 能 够 取得 不 错 的 效果 提升 。 


。 模型 训练 


进行 完 特征 抽取 与 组 合 ， 并 选择 一 个 合适 的 模型 后 ， 我 们 就 可 以 对 
模型 进行 训练 了 。 模 型 的 训练 与 调 优 过 程 也 蕴藏 着 许多 经 验 与 知识 。 例 
如 ， 在 线 上 进行 实时 点 击 率 预 估 的 时 候 ， 我 们 通常 希望 模型 被 全 部 加 载 
到 内 存 中 ， 从 而 保证 服务 的 响应 时 间 。 因 此 ， 需 要 在 模型 的 稀 琉 性 和 预 

















测 效果 之 间 进 行 一 个 折 中 ， 对 模型 的 稀疏 性 有 一 定 的 要 求 。 但是， 如果 
采用 L2 范 式 对 模 正则 化 ， 很 难得 到 完全 稀疏 的 结果 ， 更 好 的 方案 





是 采用 L1 正 则 。 要 求 面试 者 了 解 L1 和 L2 正 则 化 的 特点 和 相关 理 
论 。 例如， 在 编写 深度 神经 网 络 模型 对 点 击 率 进 行 建 模 和 训练 时 ， 我 们 


需要 检验 程序 计算 出 的 梯度 是 否 正确 ， 这 需要 对 梯度 验证 技术 有 所 了 
解 。 另 外 ， 由 于 深度 神经 网 络 模型 的 假设 空间 是 非 凸 的 ， 有 时 在 使 用 随 
机 梯度 下 降 法 优化 时 会 陷入 局 部 最 优 解难 以 自拔 ， 这 对 随机 梯度 
下 降 法 失效 的 原因 进行 深入 分 析 ， 并 利用 改进 的 方法 进行 训练 。 








。 模型 评估 


模型 训练 完成 之 后 ， 就 需要 对 其 效果 进行 合理 的 评估 了 。 模 型 评估 
主要 分 为 离线 评估 和 在 线 评 估 两 个 阶段 。 离 线 评估 的 任务 是 设计 合理 的 
实验 和 指标 ， 使 得 离线 评估 的 结果 和 将 来 上 线 之 后 的 结果 尽量 吻合 
于 单个 指标 通常 只 能 评估 模型 的 某 个 方面 ， 我 们 通常 需要 采用 
标 来 对 模型 的 效果 进行 综合 评价 。 以 点 击 率 预 估 为 例 ， 离 线 阶段 常用 的 
评估 指标 有 Log Loss 和 AUC。Log Loss 衡 量 预测 点 击 率 与 实际 点 击 率 的 


获得 点 击 的 样本 前 面 。 一 方面 ， 我 们 希望 预测 的 点 击 率 尽 可 能 精准 ; 
一 方面 ， 又 希望 更 有 可 和 获得 点 击 的 广告 被 尽 可 能 地 排列 在 前 面 。 所 以 
要 求 两 个 指标 都 得 到 比较 好 的 结果 ， 至 于 哪个 指标 作为 主要 指标 要 视 具 
e 个 模型 离线 评估 阶段 取得 了 好 的 结果 ， 下 
进行 线 了 。 这 一 环节 在 模型 正式 上 线 之 前 至 关 

重要 ， DME Aces MoE Le pee N 
E AREER NE E EA 须 

的 。 
















广告 检索 


广告 检索 阶段 的 任务 是 根据 查询 、 受 众 等 定向 条 件 检索 

投放 条 件 的 广告 。 例 如 ， 根 据 查询 的 模糊 匹配 ， 要 求 将 与 该 查询 文本 在 
语义 上 相近 的 广告 尽 可 能 地 召回 ， 供 下 一 阶段 广告 排序 和 选择 算法 使 
用 。 这 一 阶段 主要 以 召回 率 为 评估 指标 ， 因 为 被 漏 掉 的 广告 在 后 面 就 没 
有 机 会 被 展示 出 来 了 。 模糊 匹配 问题 的 经 典 方法 是 查询 扩展 50]。 
通俗 地 讲 ， 就 是 为 当前 的 查询 找到 一 组 语义 相关 的 查询 ， 然 后 至 少 被 其 
中 一 个 查询 检索 到 的 广告 都 可 以 加 入 备 选集 合 。 查 询 扩展 本 质 上 是 计算 
两 个 查询 之 间 的 文本 相似 度 ， 或 者 求 出 给 定 一 个 查询 的 条 件 下 生成 另 一 
个 查询 的 概率 。 前 者 可 基于 主题 模型 、Word2Vec 等 算法 实现 ， 后 者 可 
利用 深度 神经 网 络 等 方法 进行 建 模 。 


里 广告 排序 / 选择 









不 同 的 广告 业务 场景 在 此 步骤 中 的 决策 方式 是 不 同 的 。 对 于 合 
告 来 说 ， 我 们 的 目标 : yes i 3 
量 不 足 时 会 受到 惩罚 ) ， 
问题 可 以 被 建 模 成 带 sc tea 
路 ， 左 侧 的 每 一 个 节点 代表 É i 
机 会 。 我 们 将 流量 按 | 特征 划分 为 若干 个 分 段 ， 每 个 分 段 代表 了 一 类 曝 
光 机 会 ， 每 一 个 合约 由 于 其 定向 条 件 的 限制 ， 只 能 在 某 些 分 段 的 流量 上 
进行 投放 。 于 是 广告 的 选择 可 以 表达 成 为 一 个 二 部 图 号 配 问题 ， 优 化 的 
目标 是 使 得 总 的 投放 收入 最 大 化 5 。 
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图 149 合约 广告 的 选择 问题 


假设 d 为 第 i 个 合约 的 总 需求 量 ，s 为 第 i 类 曝光 机 会 的 供给 量 ，V 为 
第 个 合约 的 单 次 曝光 收入 CPM》，xjE[0,1] 为 第 类 曝光 机 会 到 来 
时 ， 选 择 第 个 合约 的 广告 进行 展示 的 概率 。 目 标 函 数 如 下 ， 即 使 得 总 
的 投放 收入 最 大 化 。 


max Divs 
g 
(14.1) 
另 有 如 下 3 个 约束 : 
Vj, Ti Sayed; 
(14.2) 


Vi, Ej xsl 


4.3) 
Vi, j, x20 
a44) 


HPR (14.2) 规定 每 个 合约 规定 的 总 曝光 量 必须 得 到 满足 ， 式 
(14.3) 表示 每 类 曝光 机 会 选择 各 个 合约 的 总 概率 之 和 应 该 小 于 等 于 
1; R (14.4) 表达 概率 x 的 非 负 性 。 ld 
解 ， 当 然 在 总 供给 量 不 够 的 情况 下 ， 上 面 的 问题 也 可 能 无 解 ， 这 时 需 : 
ER 04D 中 添加 一 个 变量 由 ， 代 表 合 约 j 的 欠 曝 光量 mio 
delivery) ， 且 约束 变更 为 : 5， sxi+uPdi。 与 此 同时 ， 在 目标 函数 中 也 
需要 加 入 欠 桌 光量 所 带 来 的 惩罚 ， 具体 的 公式 参照 文献 [51]。 


在 竞价 广告 的 模式 下 ， 广 告 投放 机 根据 点 击 率 预 估 的 结果 对 广告 进 
行 排序 和 选择 。 对 于 一 个 新 上 线 的 广告 ， 如 果 没 有 充分 的 曝光 ， 是 无 法 
对 其 点 击 率 做 出 准确 预测 的 。 这 时 如 果 我 们 仅 采用 利用 的 方案 ， 会 倾向 
于 选择 其 他 点 击 率 更 高 的 广告 ， 或 给 出 一 个 较 低 的 出 价 。 长 此 以 往 ， 该 
广告 很 可 能 丧失 足够 的 曝光 机 会 ， 我 们 也 永远 无 法 对 其 点 击 率 进行 合理 
的 估计 。 因 此 ， 我 们 需要 对 曝光 量 不 足 的 广告 进行 探索 ， 但 仅仅 采用 探 
索 的 方案 显然 也 是 不 行 的 。 对 于 已 有 足够 曝 光量 的 广告 ， 还 是 应 该 遵循 
点 击 率 预 信 的 结果 进行 排序 、 选 择 和 出 价 。 换 索 与 利用 是 一 对 矛盾 的 主 
体 ， 需 要 在 其 间 找 到 平衡 ， 才 能 达到 最 佳 的 投放 效果 ， 这 也 是 强化 学 习 
所 重点 关注 与 解决 的 问题 。 在 强化 学 习 的 场景 下 ， 一 开始 我 们 并 没有 足 
够 多 的 带 标 注 样本 ， 需 要 与 环境 进行 交互 (投放 广告 》， 通 过 获得 反馈 
的 方式 来 改进 模型 ， 最 终 获得 一 个 最 优 的 投放 策略 。 在 程序 化 交易 的 场 
景 中 ， 需 求 方 平台 还 需要 对 选 定 的 广告 进行 出 价 ， 如 何 优化 出 价 也 是 一 
个 独立 的 研究 课题 ， 在 这 里 就 不 展开 了 ， 有 兴趣 的 读者 可 以 参考 文献 
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综 上 所 述 ， 计 算 广告 的 相关 算法 几乎 包含 了 本 书 介绍 内 容 的 方 方 面 
而 。 要 想 成 为 一 个 优秀 的 广告 算法 工程 师 ， 除 了 熟练 掌握 业务 流程 之 
外 ， 还 要 为 各 类 算法 、 理 论 和 方法 打 好 坚实 的 基础 ， 并 在 实践 中 不 断 掌 
担 算法 优化 的 经 验 。 在 面试 中 ， 关 于 理论 、 方 法 、 实 践 经 验 等 相关 的 问 
题 都 会 涉及 ， 所 以 也 请 各 位 读者 能 够 认真 阅读 前 面 的 面试 题 和 解答 ， 为 
以 后 的 工作 打下 坚实 的 基础 。 





02 游戏 中 的 人 工 智能 


自 人 类 文明 诞生 起 ， 就 有 了 游戏 。 游 戏 是 人 类 最 早 的 集 益 智 与 娱乐 
为 一 体 的 活动 ， 传 说 四 千年 前 就 有 了 。 几 个 世纪 以 来 ， 人 们 创造 出 
不 计 其 数 的 各 类 游戏 ， 比 如 象棋 、 国 | 扑克 、 麻 将 、 桌 游 
等 。 半 个 多 世纪 前 ， 电 子 计算 机 技术 诞 HLM TA. 1980 
年 前 后 ， 电 视 游戏 (Video Game) 和 街机 游戏 (Arcade Game) 开始 进 
入 人 们 视线 ， 当 
靡 街头 的 游戏 机 厅 E 
FELRE BORER A T — REAR a 
脑 ， 手 机 、 平 板 等 各 类 带 屏 平台 都 被 游戏 
数 千 亿 美元 的 产业 ， 全 球 市 场 利润 远 超 其 他 娱 


现在 ， 定义 游 的 边界 不 再 清晰 。 ee i sabres 
3 ag 去 人 


戏 不 只 有 有 娱乐 
RUE OPARA, ike 

心理 学 家 认为 ， 人 们 玩 游戏 时 的 娱乐 体验 ， 构 建 在 智力 
游戏 中 层 层 关卡 设计 ， 代 表 不 同 级 别 的 智力 难度 ， 玩 家 在 过 关 之 
3 定 的 脑力 ， 观 察 、 思 考 、 学 习 并 动用 过 去 积累 的 
i 串 对 智力 逐 级 考察 并 及 时 奖励 的 过 程 ， 是 我 们 产生 愉悦 感 
TRIE 也 是 游戏 和 智能 密 不 可 分 的 联系 。 


m 游戏 AI 的 历史 


早 在 人 工 智能 处 于 萌芽 期 ， 先 驱 们 就 产生 用 计算 机 解决 一 些 智力 任 
的 想法 。 人 工 智 能 之 父 一 一 阿兰 很 早 就 从 理论 上 提出 用 MiniMax 
示 象棋 的 思路 [53]。 


第 一 款 成 功 下 棋 的 软件 诞生 于 1952 年 ， 记 录 在 道格拉斯 的 博士 论文 
中 ， 玩 的 是 最 简单 的 Tic-Tac-Toe 游 戏 〔 见 图 14.10 (a) ) 。 几 年 后 ， 约 
瑟 夫 塞 :经 尔 开发 出 下 西洋 跳棋 ( 见 图 14.10(b》) 的 软件 ， 是 第 一 款 应 

器 学 习 算法 的 程序 ， 现 在 这 个 算法 被 人 们 称 为 强化 学 习 。 在 早期 的 
游戏 中 ，AI 都 集中 在 解决 经 典 棋 类 游戏 的 问题 上 ， 人 们 相信 人 类 挑战 了 
几 百 年 甚至 上 千年 的 游 ; 定 是 人 类 智能 的 精华 所 在 。 然 后 ， 三 十 年 
的 努力 ， 人 们 在 树 搜索 技术 上 取得 突破 。1994 年 ， 乔 纳 森 :斯 卡 费 尔 的 








































西洋 跳棋 程序 Chinook 打 败 了 人 类 冠军 马里 恩 . 汀 斯 雷 5，2007 年 ， 他 在 
《科学 》 杂 志 宣 布 “Checkers is solved”( 西 洋 跳棋 已 被 攻克 ) G5), 
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(a) Tic-Tac-Toe 洲 戏 





Co) FARAH A 


图 14.10 各 种 横 类 游戏 





图 14.11 深蓝 击败 象 模 大 师 加 里 , 卡 斯 由 罗 夫 


游戏 AI 的 另 一 个 里 程 碑 事件 发 生 在 西洋 双 陆 棋 上 《 见 图 
14.10 (c) ) 。 的 名 叫 TD-Gammon 的 程 
Sete 










， 达 到 了 项 
经 历 了 从 高 潮 到 低谷 、 从 低 













67, 





伏 伏 ， 时 间 : 转移 到 2010 
的 出 现 ， 将 游戏 AI 推 向 


m 从 AlphaGo 到 AlphaGo Zero 


游戏 一 一 围棋 ，AI 研 究 者 们 一 度 认 为 这 一 天 远 未 到 
歌 DeepMind 的 一 篇 论文 《通过 深度 神经 网 络 与 搜索 
i go with deep neural networks ond 

提 到 AI 


算法 成 功 运用 有 监督 
BEE 


面 对 古 老 的 中 
来 。2016 年 1 月 ， 
掌握 围 







al, 2016 年 3 a Ht 
战 ， 最 终 以 4 : 1 获胜 〈 见 图 1 
必 围 棋 大 师 在 网 络 围棋 对 战 平台 上 ， 






个 名 为 Master 的 神 
在 线 超 快 棋 的 方式 ， 以 60 胜 0 





负 的 战绩 震惊 天 下 ， 在 第 59 盘 和 第 60 盘 的 局 间 宣 布 自己 就 是 AlphaGo。 
2017 年 5 月 ， AlphaGo 又 与 被 认为 世界 第 一 的 中 国 天 才 棋 手 柯 洁 举行 三 局 
较量 ， 结 果 三 局 全 胜 。 








图 14.12 AlphaGo 击 政 围棋 冠军 李 世 厂 


成 了 深度 神经 网 络 、 
算法 。 虽 然 人 们 很 时 










评估 方面 ，APV-MCTS 结 合 
rere 









， 使 用 Shy ERAT ETT ine. 要 
出 的 是 ， 为 了 训练 有 监督 版 的 策略 网 络 ， 在 50 核 的 分 布 式 计算 平台 上 要 
花 大约 3 周 时 间 ， 如 图 14.13 所 示 。 
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图 14.13 AlphaGo 的 训练 


就 在 众人 尚未 回 过 神 来 之 际 ，AlphaGo 的 后 继 者 AlphaGo Zerot 
出 世 ， 后 者 根本 不 需要 人 类 棋谱 做 预先 训练 ， 完 全 是 自己 和 自己 
下 [9。 算 法 上 ，AlphaGo Zero 只 凭借 一 个 神经 网 络 ， 进 行 千 万 盘 的 自我 
A. 初始 时 ， 由 于 没有 人 类 知识 做 铺垫 ，AlphaGo Zero 不 知 围棋 为 何 
物 ;，36 小 时 后 ，AlphaGo ”Zero 达到 2016 年 与 李 世 石 对 战 期 AlphaGo 的 水 
平 ，72 小 时 后 ，AlphaGo Zero 以 100 : 0 的 战绩 绝对 碾 压 李 世 石 版 的 
AlphaGo; 40 天 后 ，AlphaGo 。 Zero 超越 所 有 版 本 的 AlphaGo， 如 图 14.14 
所 示 。 研 究 者 们 评价 AlphaGo Zero 的 意义 ， 认 为 它 揭示 出 一 个 长 期 以 来 
被 人 们 忽视 的 真相 一 一 数据 也 许 并 非 必要 ， 有 游戏 规则 足够 。 这 恰 和 人 
们 这 几 年 的 观点 相左 ， 认 为 深度 学 习 技术 是 数据 驱动 型 的 人 工 智能 
术 ， 算 法 的 有 效 性 离 不 开 海 量规 模 的 训练 数据 。 事 实 上 ， 深层 次 探究 个 
中 原因 ， 有 了 游戏 的 模拟 系统 ， 千 万 盘 对 弈 、 千 万 次 试 错 不 也 是 基于 千 
万 个 样本 数据 吗 ， 只 是 有 效 数据 的 定义 不 一 定 指 人 类 的 知识 。 
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图 14.14 AlphaGo Zero 超越 所 有 转 模 选手 的 进步 过 程 


纵 观 其 他 经 典 的 棋 类 游戏 ， 如 国际 象棋 、 中 国 象棋 等 ， 无 一 不 是 基 
于 确定 性 规则 建立 的 游戏 类 游戏 不 仅 规则 明晰 ， 而 且 博 oe 
持 有 对 称 | b BIANA i 游 SRE, on 
个 搜索 问题 ， 而 且 是 一 对 一 的 MiniMax 游 戏 。 上 
向 下 进行 搜索 式 推演 ， 可 以 找到 较 好 的 策略 
把 各 种 分 支 情况 都 遍历 到 ， 出 最 佳 方 
以 用 一 些 剪 枝 的 或 概率 | 



















象棋 的 棋子 较 少 ， 且 不 同 棋子 走 子 方式 固定 ， 用 今天 超级 计算 机 穷 举 
不 是 问题 。 但 是 围 棋盘 是 19x19， 有 361 个 落 子 点 ， 一 盘 围棋 约 
k 有 棋 类 游戏 中 最 多 的 ， 需 要 的 计算 量 巨 





这 也 导致 围棋 成 为 最 后 被 计算 机 攻克 的 
FERNEN 复杂 程度 大 约 ge 
上 





里 德州 扑克 中 的 “ 距 人 ?>AI 
a ee 分 盛行 ， 大 概 的 规则 是 每 人 发 两 张 暗 牌 ， 只 有 自 


， 然 后 按 3-1-1 的 节奏 发 5 张 明 牌 ， 七 张 牌 组 成 最 大 的 牌 型 按照 
同花顺 > 四 条 > 葫芦 > 同 花 > 顺 子 > 三 条 > 两 对 > 对 子 > 高 牌 的 顺序 比 大 小 。 
ey 玩家 只 能 看 到 自己 的 两 张 底牌 和 桌面 的 公共 牌 ， 因 此 得 到 的 信 
息 不 完全 。 高 手 可 以 通过 各 种 策略 来 干扰 对 方 ， 比 如 诈 晓 、 加 注 骚扰 
等 ， 鞠 限 注 鳃 州 丰 克 可 以 随时 全 下 。 








2017 年 1 月 ， HERA Fe tH Je IEM VERA ER HT LH, 一 个 名 为 
NMOL Eki i) b 






( 见 图 14.15，。 它 的 设 让 

ORR es i 克 的 爱好 者 ， 并 不 十 分 精通 ， 平 时 只 与 朋友 打 打 五 美 
元 一 盘 的 小 牌 ， 所 以 从 未 通过 自己 或 其 他 人 类 的 经 验 教 Libratus 怎 么 玩 
牌 ， 仅 仅 给 了 它 德 扑 的 玩法 规则 ， 让 它 通过 “左右 互 搏 "来 自己 摸索 这 个 
游戏 该 怎么 玩 ， 如 何 能 更 大 概率 地 获胜 。 也 许 正 因为 布朗 未 传授 人 类 经 
验 给 Libratus， 使 它 玩 德 扑 的 风格 如 此 过 异 于 人 类 ， 让 人 捉摸 不 透 ， 而 
这 对 获胜 十 分 关键 ， 因 为 在 玩 德 扑 的 过 程 中 ， 下 注 要 具备 足够 的 随机 
性 ， 才 会 让 对 手 摸 不 清 底细 ， 同 时 也 是 成 功 诈 晓 住 对 手 的 关键 。 与 
Libratus 交 手 人 类 职业 玩家 证 实 了 Libratus 下 注 十 分 大 胆 ， 不 拘 一 
格 。 它 动不动 就 押 下 全 部 筹码 ， 多 次 诈 晓 住人 类 对 手 ， 这 让 人 类 玩家 在 
20 天 内 只 有 4 天 是 赢 钱 的 ， 其 他 日 子 都 输 了 。 


据 称 ，Libratus 自 我 学 习 能 力 非常 强 ， 人 类 头 一 天 发 现 它 的 弱点 ， 
第 二 天 它 就 不 会 再 犯 。 布 朗 所 用 的 方法 称 为 反 事实 遗憾 最 小 化 算法 
(Counterfactual Regret Minimization, CFR) ， 可 得 到 一 个 近似 纳什 均 
衡 的 解 ， e a ee etre PAREM 

















DeepStack 是 另 一 个 同样 达到 世界 级 水 准 的 德 扑 AI 程序 [501。 与 
Libratus 相 同 ，DeepStack 采 用 自我 对 战 和 递归 推理 的 方法 学 习 策略 ; 不 
同 的 是 ， 它 不 是 计算 一 个 显 式 的 策略 ， 而 是 类 似 AlphaGo， 采 用 树 搜索 
似 值 函数 的 强化 学 习 方法 来 决定 每 轮 的 行为 ， 可 看 成 一 个 带 不 完 
息 的 启发 式 搜索 AlphaGo。 























图 14.15 AEHIPEAI Libratus 的 决策 过 程 


牌 类 游戏 与 棋 类 游戏 不 同 。 国 际 象棋 、 中 国 象棋 和 围棋 等 都 是 " 完 完 
信息 ”游戏 ， 也 就 是 说 ， 所 有 玩家 在 游戏 中 获得 的 信息 是 确定 的 、 
开 的 和 对 称 的 。AI 攻 克 这 些 游戏 的 难度 ， a 
数量 ， 这 决定 了 需要 的 计算 量 。 然 而 ， 扑 克 是 一 种 包含 很 多 隐藏 信息 
的 “不 完美 信息 "游戏 。 玩 家 掌握 不 对 称 信息 ， 只 看 得 到 自己 手 里 的 牌 ， 
却 不 知道 对 手 手中 的 牌 ， 更 不 : 手 如 何 猜测 自己 的 手 牌 。 因 此 ， 虽 
然 一 局 德 扑 的 决策 点 数量 要 少 围棋 ， 但 是 不 确定 性 的 加 入 ， 使 得 
每 个 决策 点 上 ， 玩 家 都 要 全 盘 进 行 推理 ， 计 算 量 难以 想象 。 在 非 对 称 信 
息 博 弈 中 ， 对 同样 的 客观 状态 ， 由 于 每 个 玩家 看 到 的 信息 不 同 ， 这 增加 
了 玩家 状态 空间 的 数目 以 及 做 决策 的 难度 。 如 果 考 虑 心理 层面 的 博弈 ， 
peed 人 类 可 以 “ 诈 晓 "来 虚 张 声势 ， 这 被 人 类 看 作 是 智商 和 情商 

完美 结合 


非 对 称 博弈 中 双方 的 猜测 是 彼此 的 ， 是 相互 影响 的 ， 故 而 没有 单一 
的 最 优 打 法 ，AI 必 须 让 自己 的 移动 随机 化 ， 这 样 在 它 晓 骗 对 方 时 对 方才 
无 法 确定 真 假 。 举 个 石头 剪子 布 的 例子 ， 如 果 别 人 一 直 用 石头 剪刀 布 各 
1/3 的 混合 策略 ， 那 自己 就 会 发 现 好 像 怎么 出 招收 益 都 是 9， 于 是 每 次 都 
出 石头 ， 但 是 这 样 的话 ， 对 手 就 可 以 利用 这 个 策略 的 弱点 提高 自己 的 收 
益 。 所 以 好 的 算法 就 要 求 ， 基 于 别人 已 有 策略 得 到 的 新 策略 要 尽 可 能 地 
少 被 别人 利用 。 这 样 的 研究 有 很 实际 的 意义 ， 它 将 来 能 够 应 用 在 金融 谈 
判 、 拍 卖 、 互 联网 安全 等 领域 ， 需 要 AI 在 "不 完美 信息 ”的 情景 中 做 出 决 
策 ， 这 或 许 正 是 Libratus 擅 长 的 。 

















里 AI 电子 竞技 





20134 坡 谷 歌 收购 的 DeepMind 发 表 了 一 篇 里 程 碑 式 的 论文 
《月 IJ 于 Atari) (Playing Atari with deep reinforcement 








此 纪 80 年 代 


learning) [621]。Atari 2600 
的 习 机 ， 输 出 信号 接 电视 机 ， 输 入 则 是 


14.16) ， 相 当 于 以 












一 个 控制 杆 。 研 究 者 : girs Learning 
Environment (ALE) 上 人 ki 
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表 了 著名 的 文章 《通过 深度 强人 
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图 14.16 游戏 机 Atar 上 的 游戏 


此 外 ， 在 2016 年 4 月 ， 另 一 家 AI 研 究 公司 一 一 OpenAI 对 外 发 布 了 一 
款 用 于 A LRO. Gym 包 括 了 各 种 模拟 环 
境 的 游戏 ， 如 最 经 典 的 倒立 摆 。 该 平台 提供 ， 
发 者 可 以 编写 适用 不 同 环境 的 通用 AI 算法 算法 
拿 出 来 训练 和 展示 ， 获 得 专家 和 其 他 爱好 者 的 点 评 ， 大 家 共同 探讨 和 研 
究 。 强 化 学 习 有 各 种 各 样 的 开源 环境 集成 ， 与 它们 相 比 ，Gym 更 为 完 
善 ， 拥 有 更 多 种 类 且 不 同 难度 级 别 的 任务 ， 如 图 14.17 所 示 。 








。 倒立 摆 (Cart Pole) : 这 是 一 个 经 典 控制 问题 。 一 个 杆 一 个 小 车 ， 
杆 的 一 端 连接 到 小 车 ， 连 接 处 自由 ， 杆 可 以 摆 来 摆 去 。 前 后 两 
个 方向 移动 ， 移 动 取决 于 施加 的 前 后 作用 力 ， 大 小 为 1。 控 
制 力 的 方向 ， 进 而 控制 小 车 ， 让 杆 保 持 站 立 。 注 意 小 车 的 移动 范围 
是 有 限制 的 。 

。 月 球 登陆 者 〔(Lunar Lander) : 这 个 游戏 构建 在 Box2D 模 拟 器 上 。 
Box2D 是 一 款 2D 游 戏 世 界 的 物理 引擎 ， 可 处 理 二 维 物 体 的 碰撞 、 摩 
擦 等 力学 问题 。 本 游戏 的 场景 是 让 月 球 车 顺利 平稳 地 着 陆 在 地 面 上 
的 指定 区 域 ， 接 触 地 面 一 瞬间 的 速度 最 好 为 0， 并 且 消 耗 的 燃料 越 
少 越 好 。 

。 双 足 行走 者 〔Bipedal Walker) : 同样 基于 Box2D 模 拟 器 ， 这 个 游戏 











中 玩家 可 以 控制 双 足 和 
关节 处 的 马达 扭力 ， 尽 量 守 
环境 是 供 的 路 1 面包 括 台 阶 、 
光 测 距 值 。 另 外 ， 环 境 并 
角速度 和 关节 处 角速度 等。 








毁灭 战士 (Doom: Defend Line) 
景 是 在 一 个 密闭 的 空 
全 自己 ， a 怪物 越 多 ， 奖 励 就 越 多 。AI 玩 
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玩家 一 样 ， 只 是 一 个 第 
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(d) SKR 
图 14.17 Gym 中 的 各 种 小 游戏 





OpenAI 显 不 满足 于 此 。 2016 年 年 底 ， 继 4 月 发 布 Gym 之 后 ， 
OpenAI 又 推出 一 人 台 一 一 Universe ( 见 图 14.18) 。Universe 的 目标 





人 同 Gym 上 的 定制 游戏 不 同 ，Universe 脑 


网 下 及 其 他 应 用 。 i 样 面 对 村 


环境 







实 | fj 

和 硬件 的 进步 。 具 体 地 讲 ， 游 戏 程序 s 

给 外 部 的 接口 ， 人 与 机 器 一 样 的 ， 谁 都 不 能 访问 游戏 程序 的 内 部， 只 能 
EURE EMR, 和 发 送 键盘 和 鼠标 指令 。 


@ =a 


图 14.18 OpenAL 开发 的 通用 Al 平 台 Universe 示 意图 





























Universe 的 目标 是 让 设计 者 开发 单一 的 智能 ， 去 完成 Universe 中 







KE atocolaeks 许 戏 和 任务 出 现时 ， 智 能 体 可 以 借助 过 
往 经 T ae 








戏 和 任务 。 min 
AlphaGo i 但 是 


即 可 以 在 
特定 领域 : 现 超人 的 ea zg 像 
AlphaGo 不 能 陪 你 : 一 起 玩 其 他 游戏 。 问题 能 力 的 


系统 ， 就 要 让 AI 拥有 人 类 常识 ， 这 样 才能 够 快速 解决 新 的 任务 。 因 此 ， 
智能 体 需要 携带 经 验 到 新 任务 中 能 采用 传统 的 训练 步骤 ， 初 始 化 








为 全 随机 数 ， 然 后 不 cn 重新 学 习 和 数 。 这 或 许 是 迈 向 通用 ”AI 的 
重要 一 步 ， 所 以 我 人 让 智能 体 去 经 历 一 系列 不 同 的 任务 ， 以 便 它 能 





发 展 出 关于 世界 的 认 知 以 及 解决 问题 的 通用 策略 ， 并 在 新 任务 中 得 到 使 
用 。 








cL. ChivereiBthe ABERAS ERATE 
页 并 在 网 页 间 导 航 ， 像 人 类 一 样 使 用 显示 器 、 键 盘 和 鼠标 。 当 前 的 主要 
任务 是 学 习 与 各 类 网 页 元 素 交互 ， 如 点 击 按钮 、 下 拉 菜单 等 。 oie AI 
可 以 完成 更 复杂 的 任务 ， 如 搜索 、 购 物 、 预 定 航班 等 。 


里 星际 争霸 : 走向 通用 AI 


面 对 策 略 类 电脑 游戏 ， 挑 战 难点 不 仅仅 是 像素 点 阵 组 成 的 画面 ， 更 

高 级 认 知 水 平 的 表现 ， 考 察 AI 能 否 综合 对 多 种 单位 、 多 种 要 素 等 的 
分 析 ， 设 计 复杂 的 计划 ， 并 随时 根据 情况 灵活 调整 计划 ， 尤 其 是 即时 类 
策略 游戏 ， 被 视 为 AI 最 难 玩 的 游戏 。 星 际 争霸 〈StarCraft) j 
样 的 游戏 ， 于 1998 年 由 暴雪 娱乐 公司 发 行 〈 见 图 14.19) 。 它 的 资料 片 
FZR (Brood War) 提供 了 专 给 AI 程序 使 用 的 API， 激 发 起 很 多 AI 研 
究 者 的 研究 热情 [651。 


在 平台 方面 ，DeepMind 在 成 功 使 用 深度 
布 和 暴雪 公司 合作 ， 将 StarCraft I 作为 新 一 代 AI 测 试 环境 ， 发 布 SC2LE 
平台 ， 开 放 给 AI 研 究 者 测试 他 们 的 算法 。SC2LE 平 台 包括 暴雪 公司 开发 
的 Machine Learning API、 匿 名 化 后 的 比赛 录像 数据 集 、DeepMind 开 发 
的 PySC2 工 具 箱 和 一 系列 简单 的 RL 迷你 游戏 [65]。Facebook 也 早 在 2016 年 
就 宣布 开源 TorchCraft， 目 的 是 让 每 个 人 都 能 编写 星际 争霸 AI 程 序 。 
TorchCraft 是 一 个 能 让 深度 学 习 在 即时 战略 类 游戏 上 开展 研究 的 库 ， 使 
用 的 计算 框架 是 Torcht671。 


























if 器 和 启发 
传播 两 种 方 
5 到 这 场 A 挑战 赛 











式 强化 习 算法 ， 在 策 
法 来 寻找 最 佳 策 略 。 际 
中 ， 提 出 一 个 多 知 
同 网 络 ， 来 维护 一 个 
争 霜 中 的 名 
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图 14.20 “星际 争霸 的 三 个 决策 层次 
昌 为 什么 AI 需要 游戏 ? 


WERE AAR. A 
Player Character) 的 概 
或 对 抗 ， 或 陪伴 , 或 
与 不 同 难度 等 级 AI 的 对 : 
戏 的 黏 性 。 另 一 方面 ， 游 戏 行业 也 是 AI 发 展 最 理想 的 试金石 Pol。 


游戏 提供 了 定义 和 构建 复杂 AI 问题 的 平台 。 传 统 学 术 界 的 AI 问题 都 
是 单一 、 纯 粹 的 ， 每 个 问题 面向 一 个 特定 任务 ， 比 如 图 片 分 类 、 目 标 检 
测 、 商 品 推荐 等 。 走 向 通用 AI， 迟 早 要 氛 脱 单一 任务 设 定 
入 、 多 场景 和 多 任务 下 的 复杂 问题 。 从 这 游戏 是 传统 
法 媲美 的 ， 即 使 是 规则 简单 的 棋 过 


这 些 难度 铺设 的 疏 山 道上 ， 研 究 者 们 
国际 象棋 、 中 国 象棋 和 围棋 ， CLM PIPRA R 
等 。 现 在 ， 人 们 正 把 目光 放 在 更 大 型 、 TURAN ee 


游戏 提供 了 丰富 的 人 机 交互 形式 。 游 戏 中 人 机 交互 是 指 人 的 各 种 操 
作 行 为 以 及 机 器 呈现 给 人 的 各 种 信息 ， 具 有 快 节奏 多 模 态 的 特征 。 一 方 
面 ， 游 戏 要 么 是 回合 制 的 ， 人 机 交互 的 频率 一 般 都 是 秒 级 ， 有 的 稍 长 ， 


















比如 围棋 、 大 富 俩 等 ， 要 么 是 实时 的 ， 频 率 更 短 ， 比 如 极品 飞车 、 星 际 
争霸 等 ， 另 一 方面 键盘 、 鼠 标 和 触摸 板 控制 游戏 中 的 角色 
但 不 限于 此 ， 在 一 些 新 出 戏 中 ， 人 们 还 可 通过 移动 身体 、 改 变 身体 
姿态 和 语音 控制 的 方式 参与 游戏 。 如 果 将 交互 人 区 态 考虑 进来 ， 有 
动作 、 文 本 、 图 片 、 语 音 等 ;如 果 将 交互 信息 在 游戏 中 的 作用 考虑 进 
来 ， 可 以 是 以 第 一 人 称 方式 直接 控制 角色 ， 如 各 类 RPG 游 戏 ， 可 以 是 以 
角色 切换 的 方式 控制 一 个 群体 ， 如 实况 足球 ， 还 可 以 从 上 帝 视角 经 营 一 
个 部 落 、 一 个 公司 或 一 个 国家 ， 如 文明 。 复 杂 的 人 机 交互 方式 ， 形 成 了 
一 个 认 知 、 行 为 和 情感 上 的 模式 闭环 一 一 引发 (Elicit) 、 侦 测 
(Detect) 和 响应 《Respond) ， 将 玩家 置身 于 一 个 连续 的 交互 模式 下 
创造 出 与 真实 世界 相同 的 玩家 体验 。 想 象 一 下 ，AI 算 法 做 的 不 再 是 拟 合 
数据 间 的 相关 性 ， 而 是 去 学 习 一 种 认 知 、 行 为 和 情感 上 的 人 类 体验 。 


游戏 市 场 的 繁荣 提供 游戏 内 容 和 用 户 数据 。 当 前 大 部 分 AI 
算法 都 是 数据 驱动 的 ， 以 3 > i 需 
训练 集 



























要 求 ， 期 和 
游戏 行业 被 推 向 新 的 纪元 eevee 随 着 玩 
年 龄 层 、 各 类 职业 人 群 ， 用 户 行为 数据 也 爆炸 式 增长 坟 大 数据 时 代 
已 然 来 临 。 


游戏 世界 向 AI 全 领域 发 出 了 挑战 SS 个 虚拟 的 时 
ET ATAN eE 
Era haa W, 是 
清 | ， 没 有 LE 
CRE RRENEN 因为 状态 空间 庞大 ， 所 以 要 设计 高 效 的 搜索 方 
如 国际 象棋 、 西 洋 棋 依靠 Mini 搜索 ， 围 棋 用 到 
此 外 ， 解 决 围棋 问题 更 少不了 





















最 火 的 卷 积 神 名 

Jeopardy! 是 美 的 一 个 知识 间 答 美 页 人 秀 ，AI 要 解决 知识 间 
答 ， 既 要 用 到 自 处 理 技术 ， 也 要 具备 一 定 的 通 识 知识 ， 掌 握 知识 
表征 和 推理 的 能 力 。 另 外 ， 规 划 、 导 航 和 路 径 选择 ， 也 是 游戏 中 常见 的 
AI 问题 。 更 大 型 的 游戏 如 星际 争霸 ， 场 景 更 复杂 ， 既 是 实时 的 又 是 策略 


的 ， 集 成 了 各 类 AI 问题 。 


如 果 上 述 / 论 仍 无 法 让 你 信服 ， 那 么 当前 DeepMind 和 OpenAI 
究 机 构 的 强力 推动 ， 研 究 者 们 产生 的 各 种 天 马 行 空 
的 想法 ， 足 以 让 你 感到 一 种 震撼 ， 看 清 游戏 对 AI 的 巨大 推动 。 事 实 上 ， 
当下 越 来 越 多 的 AI 研究 者 ， 开 始 将 游戏 视 作 构建 新 型 通用 AI 的 超级 试验 
场 。 为 什么 呢 ? 








。 无 进化 速度 的 限制 


与 经 历 上 亿 年 漫长 进化 的 人 类 相 比 ， 游 戏 提供 的 虚拟 世界 没有 时 间 
流速 的 限制 ， 计 算 流 代替 了 现实 世界 的 时 间 流 ， 处 理 器 计算 频率 越 快 ， 
i fa eat 沿 时 间 轴 演化 的 速度 越 快 。 一 天 的 时 间 ， 已 经 完成 百 
万 次 的 先 


。 无 限 次 场景 和 无 限 次 重生 


游戏 世界 可 以 提供 无 限 次 重复 的 场景 ， 智 能 体 拥有 无 限 次 重生 的 机 
会 ， 使 得 进化 的 试 错 代价 大 大 降低 。 这 让 笔者 联想 到 一 部 关于 人 工 智 能 
的 美剧 《西部 世界 》， 里 面 的 机 器 人 经 历 一 次 次 死亡 与 重生 ， 终 于 迎 来 
最 后 的 觉醒 ， 听 上 去 真 让 人 有 些 害怕 。 


。 独立 的 世界 


游戏 世界 与 现实 世界 独立 ， 既 可 以 模拟 现实 世界 的 物理 规则 ， 
以 打破 物理 规则 ， 看 智能 体 的 应 对 策略 。 前 者 对 现实 世界 高 度 仿真 ， 
助 于 在 开展 硬件 实验 前 ， 如 无 人 车 、 机 器 人 ， 先 期 探索 适用 的 AI 模 型 和 
算法 ， 大 大 降低 耗费 在 硬件 上 的 成 本 。 后 者 呢 ? 在 我 们 尚未 抵达 或 尚未 
了 解 的 极端 物理 世界 、 网 络 世界 或 其 他 世界 ， 进 行 假设 性 试验 ， 先 假设 
一 些 未 知 的 规则 ， 再 看 智能 体 的 进化 轨迹 ， 为 人 类 的 未 来 作 打算 。 


当然 ， 游 戏 也 需要 AI， 升 级 的 AI 会 大 大 增加 游戏 的 玩家 体验 。 以 前 
游戏 中 的 AI 大 都 是 写 死 的 ， 资 深 玩家 很 容易 发 现 其 中 的 漏洞 。 刚 开始 
时 ， 玩 3 she 











的 是 程序 内 部 数据 ， 和 玩家 比 有 不 对 称 优 势 。 Fee 
， 采 用 屏幕 画面 作为 AI 系统 的 输入 ， 像 一 个 人 类 玩家 来 玩 游戏 。 
不 仅 存在 对 抗 ， 还 存在 协作 。 Pyare cit eae 

a 言 的 方式 ， 向 AI 传达 指令 ， 或 接收 来 自 AI 的 报告 。 总 
之 ， Thats SEAL E WEA TT He. 






03 AI 在 自动 驾驶 中 的 应 用 





* 自 20 世 纪 初 被 雄心 勃勃 的 汽车 工业 巨头 提出 以 来 ， 
梦 寄 以 求 的 出 行 技术 。 从 2005 年 DARPA 挑 战 赛 避 于 车 
辆 智能 化 的 自动 名 ， 进 入 快速 发 展期 。 Hagel 

纷纷 投入 巨 资 ， 试图 引领 这 场 行 技术 的 革命 。 
人 工 智 能 。 本 节 将 概述 自动 驾驶 这 一 SNE SE WORK 
智能 在 其 中 发 挥 的 作用 。 


mA A EMEA BY 
安全 : 根据 统计 ， 




















员 的 失误 而 造成 的 。 从 理论 上 说 ， 一 个 
可 以 挽救 120 万 人 的 生命 。 当 然 ， 目 前 自动 
但 是 随 着 算法 和 传感器 技术 的 进步 ， 人 们 相 
将 超过 人 类 司机 的 驾驶 安全 率 。 





节假日 平均 每 天 花 近 一 小 
i 间 加 起 来 ， 将 有 
座 埃及 金字 塔 。 


高 效 共享 : Uber、Lyft 和 滴 滴 等 共享 出 行 的 巨头 ， 都 在 积极 研究 自 
动 驾驶 ， 因 为 共享 出 行 最 大 的 成 本 来 自 于 司机 的 时 间 。 如 果 能 够 实现 自 
动 驾 驶 ， 那 么 人 们 可 以 不 再 买 车 和 养车 ， 完 全 依赖 于 共 
每 个 美国 家 庭 节 约 5600 美 元 ， 约 合 他 们 


减少 拥堵 ， 如 果 说 前 面 这 些 
话 ， 那 么 减少 拥堵 这 个 优 








赖 于 自动 驾驶 的 大 范围 普及 的 
是 立竿见影 了 。 根据 伊利 诺 伊 大 
驾驶 的 车 队 中 ， 只 要 加 入 一 辆 自 
EEMS, 使 得 行驶 更 加 
雷达 的 自动 驾驶 汽车 ， 请 



















为 了 更 加 直观 地 衡量 以 J 
出 行 市 场 带 来 的 价值 做 一 个 预 估 ， 总 共 节约 的 成 本 约 合 每 年 5.3 万 亿美 





f 处 ， 我 们 不 妨 把 这 些 益处 能 给 美国 


元 ， 为 美国 GDP 的 29%， 如 图 14.21 所 示 。 
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图 1421 个 人 出 行 的 财政 角度 分 析 (美国 市 场 ) 
里 自动 驾驶 的 定义 













AARE EAA LIONS EBLE mi ia 
统 ， 按 自动 化 程度 和 驾驶 员 的 参与 度 ， i 
p 如 表 14.1 所 示 。 

pest ER AOI LL, 如 果 -个 车 畏 能 


FETE 那 这 款 车 就 跨 进 了 L2 的 门槛 。 2018 版 的 涡 迪 拉 均 CT6 
的 半自动 驾驶 系统 “Super Cruise” 就 是 典型 的 L2 级 别 。 





以 现在 已 经 发 
IG z 





表 144 国际 汽车 工程 师 协会 将 自动 驾驶 分 为 5 级 
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里 自 动 驾驶 技术 路 线 的 演进 


从 自动 驾驶 这 个 概念 提出 之 日 起 ， 就 有 两 种 截然 不 同 的 技术 路 线 
( 见 图 14.22) 。 一 是 基于 路 面 上 的 基础 设施 ， 帮 助 车 辆 定位 ， 导 航 和 
决策 ， 另 一 个 是 在 不 改变 现 有 路 面 的 情况 下 ， 车 辆 通过 自 带 的 传感器 和 
ae eee 
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图 14.22 “自动 驾驶 的 两 种 截然 不 同 的 技术 路 线 
第 一 条 技术 路 径 最 早 的 里 程 砷 是 通用 汽车 公司 在 1939 年 纽约 举行 的 


paler 展示 的 “未 来 世界 ”( Futurama) ， 如 图 14.23 所 示 。 随 着 
20 世 纪 五 六 十 年 代 铺 设 高 速 公路 网 络 的 热潮 ， 美国 无 线 电 公司 与 





















pve MEIR T ETERRA 
用 电磁 rent 导 

ie 9 距离 ， 

ii 和 美国 earns T 
车 联网 (V2X) 研究 项 目 之 中 。 





相 比 之 下 ， 自 


研究 机 构 DARPA 以 
Hh A fx. DARPAZE2001 ~2007: 
在 2005 年 的 挑战 赛 上 ，5 辆 无 人 
TUTENDE TIE. 其 中 
《 见 图 14.25) ， 据 弃 基 于 人 工 规则 的 广 
pee 别 障碍 物 和 做 出 















了 112 万 千 米 。 厄 姆 森 性 


街道 的 上 千 种 复杂 路 况 ， 而 现在 自动 








图 14.23 “未 来 世界 "， 由 工业 设计 师 贝 





公路 测试 





图 14.25 2005/EDARPASRARIEI 冠军 史丹利”( 左 一 ) 
里 自动 驾驶 与 人 工 智 能 

自动 驾驶 的 支撑 技术 可 以 分 为 以 下 3 层 。 

上 层 控制 : 路 线 规划 ， 交 通 分 析 ， 交 通 安排 。 

中 层 控 制 : 物体 识别 ， 路 障 监测 ， 遵 守 交 规 。 


底层 控制 : 巡航 控制 ， 防 抱 死 ， 电 子 系统 控制 牵引 力 ， 燃 油 喷射 系 
统 ， 引 擎 调谐 。 


其 中 每 一 层 都 可 以 用 到 人 工 智能 技术 。 图 14.26 将 人 工 智能 的 算法 
与 其 在 自动 驾驶 中 的 应 用 场景 做 了 一 个 映射 。 
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图 14.26 人 工 智能 算法 在 自动 驾驶 中 的 应 用 场景 


以 下 简要 介绍 中 层 控制 中 ， 路 障 监测 用 到 两 个 重要 的 工具 “占据 栅 
格 "和 *“ 不 确定 性 锥 ”。 


占据 栅 格 是 一 个 存储 了 汽车 周围 实体 对 象 信息 的 数字 存储 库 。 占 据 
栅 格 中 的 实体 ， 一 些 是 源 于 已 经 存储 的 高 清 地 图 的 静止 物体 ， 另 一 些 是 
汽车 根据 传感器 的 有 识别 出 的 移动 物体 。 通 常 使 用 彩色 编码 和 图 
标 ， 来 可 视 化 那些 经 常 出 现 的 物体 所 对 应 的 占据 栅 格 。 

图 14.27 是 谷歌 无 人 车 在 一 个 十 字 路 口 ， 根 据 传感器 数据 进行 物体 识别 














。 显 然 这 还 不 够 ， 自 动 驾 
置 。 
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不 确定 性 锥 为 无 
类 司机 看 到 





离 汽车 太 近 ， ved ny 
H, HHRH Paar eae 类 似 的 * ir 
止 的 物 人 ane: 
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件 
物体 周围 画 一 个 小 圆圈 ， 
个 大 圆圈 ， 标 记 出 未 来 10 秒 后 物体 可 能 会 立 置 ， 
活动 圈 "。 最 后 ， 用 两 条 线 把 小 圆 和 大 圆 的 边缘 连接 起 来 。 





的 月 





是 不 确定 性 锥 。 


不 确定 性 锥 若 代 了 人 
的 视角 来 看 ， 一 E 

示 ， 表 明 她 随时 可 能 1 ara 如 果 她 的 眼睛 不 是 果 着 1 

而 是 盯 着 手机 ， 她 的 锥 体 图 标 则 是 另 一 种 形 人 

























并 没有 准备 好 继续 前 进 。 如 果 她 扫 视 了 一 眼 无 

标 将 进一步 缩 4 的 软件 会 识别 到 她 看 见 了 这 辆 

可 能 挡 在 汽车 的 越 不 可 预知 的 行人 ， 锥 体 的 

摇摆 不 定 的 自行 更 大 的 不 确定 性 ， SA 





TE 人 有 

也 就 更 大 。 IAAL NSE HARON 则 会 用 更 大 的 锥 体 表 
示 。 

有 时 ， 即 使 一 个 ; anam 也 可 能 会 用 一 个 大 号 锥 体 表示 其 不 确定 

它们 本 身 不 大 可 能 移动 ， 但 是 可 能 会 

5 处 ， 寺 可 能 会 有 乘客 下 车 
it 停 E 门 的 汽车 ， 无 人 驾驶 汽车 的 中 层 软件 系统 都 会 标 
记 一 个 大 号 的 不 确定 性 锥 。 静 止 的 校车 也 可 能 会 产生 不 确定 的 大 圆锥 ， 
虽然 校车 本 身 或 许 不 动 ， 但 是 随时 都 可 能 有 孩子 从 车 后 跑 出 来 。 
尾 近 的 物体 都 被 标记 并 表示 成 了 大 小 不 一 的 不 确定 性 锥 ， 一 
迹 规划 器 "的 模块 ， 就 能 据 此 计算 出 最 佳 行进 路 线 ( 见 图 
14.28) ， 并 保证 遵守 交通 规则 ， 减 少 行程 时 间 和 碰撞 风险 。 


“ees 


图 14.28 根据 周转 物体 的 不 确定 性 锥 ， 轨 和 规划 器 能 计算 出 最 佳 行进 路 线 
里 自动 驾驶 的 商业 化 
人 工 智能 的 很 多 应 用 场景 有 较 宽松 的 容错 性 ， 例 如 扫地 机 器 人 撞 到 


















错 了 ， 用 户 多 说 几 遍 就 行 
Te R 的 安全 标准 。 因 为 汽车 中 的 人 
工 智能 算法 出 错 ， 带 来 的 损失 是 无 回 的 。 例 如 ， 在 时 速 100 公 里 每 
小 时 的 车 上 ， 把 路 边 一 个 穿越 马路 的 行人 误 判 为 静止 的 柱子 ， 将 会 直接 
导致 伤亡 ， 后 果 不 堪 设 想 。 


基于 这 个 原因 ， AUNE EENE, Pa ea 

严格 管控 的 固定 线路 。 例 如 ， 伦 敦 的 希 思 用 自动 驾驶 摆渡 车 

在 停车 场 和 T5 航 站 楼 之 间接 送 乘客 ， Pe 这 一 运输 服务 叫 

PEREM 从 2011 年 起 投入 运营 。 任 何 乘客 都 可 以 从 希 思 罗 T5 航 站 楼 
ER. 











图 14.29 feia PIM Li E ME 


类 似 的 适合 〈 半 ) 封闭 路 段 的 车 型 还 有 Induct Navia ( 见 图 14.30) 
和 Arma( 见 图 14.31) ， 它 们 的 出 现 也 一 步 步 引领 自动 驾驶 走向 商业 化 
的 道路 。 





图 14.31 Navya TIHEIN Armati YERE 20kmh 自动 车 ， 可 以 载 15 人 ， 行 驶 速度 45kmhh 





计算 机 视觉 : 深度 道路 标牌 识别 ， 车 道 线 检测 ， 车 辆 跟踪 ， 
物体 分 割 ， 物 体 识别 。 


传 感 和 控制 : 信号 处 理 ，Kalman 滤 波 ， 自 动 定 位 ， 控 制 理论 (PID 
控制 ) ， 路 径 规 划 。 


系统 集成 : 机 器 人 操作 系统 ， 典 入 式 系统 。 


现在 已 有 不 少 专门 的 自动 驾驶 培训 班 或 莫 课 ， 可 以 帮助 大 家 更 加 深 
S 学 习 以 上 技术 ， 也 预 祝 读者 们 在 相关 领域 有 所 建树 ， 在 通 
向 offer 的 道路 上 一 路 绿灯 。 





04 机 器 翻译 


于 机 器 翻译 是 什么 ? 
机 器 翻译 是 计算 语言 学 的 一 个 分 支 ， 也 是 人 工 智能 领域 的 一 个 重要 
漳 到 20 世 纪 50 年 代 。 


应 用 ， 其 最 早 的 相关 研究 可 以 追 


随 着 互联 网 的 飞速 发 展 ， 人 们 对 
基 百 科 的 数据 ， 目 前 互联 网 上 存在 : 同 的 语言 ， 其 中 英语 内 容 占 
互联 网 全 部 内 容 的 一 半 左 右 ， 而 以 英语 为 母语 的 互联 网 用 户 只 占 全 部 互 
联网 用 户 的 四 分 之 一 。 跨 域 语言 屏障 ， 获 取 互联 网 上 更 多 的 内 容 是 持续 
增长 的 需求 。 


机 器 翻译 ， 即 通过 计算 机 将 一 种 语言 的 文本 翻译 成 另 一 种 语言 ， 
成 为 目前 解决 语言 屏障 的 重要 方法 之 一 。 早 在 2013 年 ， 谷 歌 翻译 每 天 提 
供 翻译 服务 就 达 十 亿 次 之 多 ， 相 当 于 全 球 一 年 的 人 工 翻译 量 ， 处 理 的 文 
字数 量 相当 于 一 直 万 册 图 书 。 


唱机 器 翻译 技术 的 发 展 


机 器 翻译 的 研究 经 历 了 基于 规则 的 方法 、 基 于 统计 的 方法 、 基 于 神 
经 网 络 的 方法 三 个 阶段 的 发 展 。 在 机 器 翻译 研究 的 早期 ， 主 要 使 用 基于 
规则 的 法， 机 器 翻译 系统 根据 i METANET, 这 
一 个 机 械 式 的 过 程 。 基 于 规则 的 方法 受 限 规则 的 质量 和 
数量 ， 编写 规则 非常 费时 费力 ， HE 的 语言 对 之 
规则 数量 增多 ， 互 相 冲 突 的 规则 也 随 之 增多 ， 难 以 覆盖 人 类 
语言 的 全 部 情况 ， 这 也 是 机 器 翻译 系统 的 瓶颈 。 


20 世 纪 90 年 代 ， 基 于 统计 的 机 器 翻译 方法 被 提出 ， 随 后 迅速 成 了 机 
计 机 器 翻译 使 用 双 诸 平行 语料库 〈 即 同时 包 

i i 本 的 语料库 ， 作 为 训练 数据 。 世 
人 熟知 的 罗 塞 塔 石碑 《 见 图 14.32》 可 以 认为 是 古老 的 平和 库 ， 石 
碑 上 用 圣 书 体 、 世 俗 体 、 古 希腊 语 三 种 文字 记录 了 相同 的 内 容 。 正 是 罗 
塞 塔 石碑 的 发 现 才 使 得 : 家 们 获得 了 破译 圣 书 体 的 钥匙 。 








与 日 俱 增 。 根 据 维 





































图 14.32 PREE 


统计 机 器 翻译 模型 从 平行 语 料 中 挖 所 由 AEE in 
i 






司 语 间 的 对 齐 关 
Teta 







近年 来 随 着 基于 神经 网 络 的 方法 被 引入 机 器 翻译 机 器 翻译 的 

到 了 大 幅 提 高 。 根 据 谷歌 机 器 翻译 团队 发 布 的 人 谷歌 翻译 于 

2016 年 9 月 上 线 中 英 神经 网 络 模型 ， 截 至 2017 年 5 月 ， 已 经 支持 41 对 
双语 翻译 模块 ， 超 过 50% 的 翻译 流量 已 经 由 神经 网 络 模型 提供 。 


神经 网 络 模型 同样 需要 使 用 平 数据 ， 但 和 统计 机 
器 翻译 将 模型 拆 解 成 多 个 部 分 不 是 一 个 整体 的 序 
列 到 序列 模型 。 以 常见 的 循环 神经 网 络 为 例 ， 神 经 网 络 模型 首先 需要 将 














和 目标 证 
过 程 进行 建 模 ， 如 图 14. 
编码 器 ， 将 输入 序列 
然后 再 使 用 一 个 循环 
解码 得 到 输出 序列 〈 目 


图 14.33 循环 神经 网 络 


神经 网 络 模型 近年 来 已 经 成 为 机 器 翻译 领域 研究 和 应 用 的 
于 神经 网 络 翻译 模型 有 很 多 新 的 改进 ， 例 如 LSTM、 注 意 力 
目标 改进 、 无 平行 语 料 训练 等 ， 机 器 翻译 系统 的 性 能 正如 日 方 : 
步 接近 人 类 水 平 。 


里 机 器 翻译 的 应 用 


目前 来 说 ， 机 器 翻译 的 效果 还 难以 达到 人 类 翻译 的 水 平 ， 但 是 随 着 
机 器 翻译 性 能 的 提升 ， 其 应 用 场景 也 越 来 越 多 样 化 。 谷 歌 2006 年 推出 的 
谷歌 翻译 (Google Translate) C4 十 几 个 年 头 ， 目 前 已 经 支持 上 百 
种 不 同 语言 ， 提 供 了 网 页 、 手 机 客户 端 、 程 序 API 等 多 种 访问 方式 。 
2017 年 5 月 的 数据 显示 ， 谷 歌 翻 译 每 天 为 5 亿 人 次 提供 翻译 服务 。 微 软 、 
百度 、 搜 狗 、 网 易 等 国内 外 公司 也 不 断 优化 着 自己 的 机 器 翻译 服务 ， 供 
大 众 使 用 。 各 种 类 型 的 机 器 翻译 服务 虽然 暂时 还 无 法 直接 用 于 书面 翻 
译 ， 但 人 们 理解 其 他 语言 的 壁垒 已 经 大 大 降低 ， 在 很 多 场景 下 机 器 翻译 
都 起 到 了 很 好 的 辅助 作用 。 


出 国旅 游 时 ， 
ee 
所 示 。 百 度 、 网 易 等 公司 将 机 器 翻译 成 果 用 于 六 
BRANE, ( 见 图 14.35》， et ili, 就 能 自动 帮 用 
户 翻 译 成 其 他 语言 ， 可 谓 是 出 国旅 游 神器 。 






语 转化 为 向 量 表达 ， 随 后 用 循环 神经 网 络 对 翻译 
先 使 循环 神经 网 络 作 


句子 的 词 序列 ) 编码 成 为 一 个 向 量 表示 ， 
为 解码 器 ， 从 编码 器 得 到 的 向 量 表示 里 
句子 的 词 序列 ) 。 
































不 通 是 很 多 人 的 一 大 痛 点 。 各 种 手机 App 的 拍 图 
< 单 等 ， 如 图 14.34 











图 14.34 谷歌 翻译 的 拍 图 翻译 





图 14.35 ”下 度 的 便 推翻 译 机 


伴随 着 机 器 翻译 性 能 的 提升 ， 各 大 公司 的 目标 也 逐渐 放 到 了 同 传 领 
域 。 在 2016 年 的 乌镇 互联 网 大 会 上 ， 搜 狗 CEO 在 演讲 中 使 用 了 实时 机 器 
翻译 技术 ， 能 够 实时 地 将 演讲 语音 转换 成 文字 并 同步 翻译 成 英文 ，2018 
年 的 博 整 论坛 引入 了 腾讯 提供 的 机 器 翻译 同 传 技术 ， 然 而 实际 效果 并 不 
尽 如 人 人 意 。 可 见 ， 目 前 的 机 器 翻译 模型 虽然 已 有 很 大 的 进步 ， 但 距离 蔡 
代 人 类 ， 在 同 传 领域 大 展 拳脚 还 有 很 长 的 一 段 路 要 走 。 


机 器 翻译 领域 吸引 了 越 来 越 多 的 关注 ， 同 时 也 面临 着 巨大 的 挑战 。 
如 何 克 服 现 有 的 缺陷 《例如 神经 网 络 模型 可 解释 性 差 的 问题 ) ， 实 现 翻 
译 性 能 的 进一步 提高 仍 是 一 个 待 解决 的 问题 。 现 阶段 机 器 翻译 的 应 用 仍 
处 于 简单 理解 其 他 语言 、 辅 助 翻译 等 方面 ， 离 大 规模 营 代 人 工 翻译 还 有 
不 小 的 差距 。 但 随 着 业界 的 广泛 关注 ， 人 才 的 不 断 涌 入 ， 机 器 翻译 领域 
将 持续 蓬勃 发 展 ， 人 类 世界 的 巴 别 塔 也 终 会 得 以 重建 。 


05 人 机 交互 中 的 智能 计算 


人 机 交互 (Human computer interaction) ， 顾 名 思 义 ， 是 研究 人 
《用 户 ) 和 计算 机 之 间 交 互 方式 的 学 科 ， 是 人 通过 交互 界面 的 一 系 
入 和 计算 机 提供 的 输出 反馈 来 完 忆 务 








AO PENTA 工 智能 : 










ects po gam 各 中 


Biehl H 法 让 机 器 完成 人 类 指 Fela ak 者 进行 
说 人 机 交互 中 蕴含 着 人 工 智能 的 方方面面 ， RAEN NCO 着 
人 工 智能 水 平 的 整体 进步 。 





图 1436 人 机 交互 示意 图 
在 过 去 的 几 十 年 中 ， 人 机 交互 领域 的 研究 取得 了 长 足 的 发 展 ， 其 中 


经 历 了 三 次 重要 的 飞跃 : 一 是 20 世 纪 70 年 代 初 ， 人 机 界面 
提出 ， 第 一 次 人 机 系统 国际 大 会 召开 ， 第 一 个 相关 专业 杂 


的 概念 被 正式 
CUMMS) 





多 家 研究 机 构 和 公司 相继 成 立 了 人 机 交互 界面 研究 中 心 

SEA MET SUR anata 是 20 世 纪 80 年 代 初 期 ， 人 机 

KERA 在 理论 体系 上 更 加 强调 认 知 心 

社会 学 等 科学 的 理论 指导 ， 在 实践 架构 中 则 
bre 人 的 反馈 交 交互 作用 ， 人 机 界面 /接口 一 词 也 被 人 机 
; 三 是 20 世 纪 90 年 代 后 期 ， 随 着 高 速 处 理 芯片 、 多 媒体 技术 

和 Internet ”Web 技术 的 迅速 发 展 和 普及 ， 人 机 交互 的 研究 重点 放 在 了 人 
机 协同 交互 、 多 模 态 多 通道 ) 与 多 媒体 交互 、 虚 拟 交互 以 及 智能 交互 

等 方面 ， 强 调 环境 和 以 人 为 中 心 的 多 通道 交互 技术 。 


2010 年 之 后 ， 伴 随 着 计算 资源 、 网 络 带 宽 和 智能 设备 的 进 一 a 
展 ， 以 及 机 在 大 数据 领域 的 应 用 和 深度 神经 网 
机 交互 领域 的 核心 技术 取得 质 的 突破 。 计 算 机 设备 开始 具备 一 定 的 智能 
化 ， 可 以 大 致 听 懂 人 说 的 话 ， 看 懂 周 围 的 环境 ， 并 理解 用 户 的 动作 和 行 
为 。 人 机 交互 领域 也 进入 第 四 个 发 展 阶 段 ， 即 智能 交互 时 代 。 


随 着 智能 交互 时 代 的 到 来 ， 人 机 : A E ETR 
有 任何 间隙 ， 人 机 交互 bed a ù 
MARAA eN, 

























们 一 -直面 向 未 来 探讨 一 下 这 些 问题 。 


里 人 机 交互 将 回归 自然 ? 


有 人 简单 地 把 交互 的 发 展 方向 定位 为 自然 人 机 交互 ， 但 这 是 不 科学 
或 者 说 不 准确 的 。 计 算 机 设备 从 诞生 的 那天 起 ， 它 就 是 非 自然 的 产物 。 
人 和 设备 的 交互 方式 主要 以 人 适应 设备 为 主 ， 例 如 人 们 使 用 的 QWERT 
键盘 、 鼠 标 、 触 摸 板 等 ， 或 者 在 方 方 正 正 的 显示 屏 上 查阅 输出 反馈 信号 
等 交互 方式 均 非 自然 的 交互 方式 。 


对 代 ， 智 能 化 和 小 型 化 的 设备 可 以 嵌入 到 衣服 、 鞋 、 戴 
的 眼镜 、 oe 抑或 周围 环境 中 的 桌子 、 椅 子 、 镜 子 、 音 箱 等 ， 
如 图 环境 中 被 赋予 智能 的 设备 交互 时 ， 通 
供 号 来 实现 人 机 交互 ， 而 非 沿 用 其 "自然 " 属 
性 的 交互 方法 ， 例如 智能 腕 表 上 的 敲 击 、 智 能 眼镜 的 手势 交互 、 智 能 桌 
面 上 的 手掌 归 拢 手势 等 。 
















图 14.37 人 机 交互 的 方式 从 键盘 刀 标 演变 成 智能 手表 等 可 穿戴 设备 


准确 地 说 ， 智 能 交互 最 终 将 在 人 性 化 方面 回归 。 这 主要 是 因为 ， 尽 
管 入 与 由 能 设备 的 交互 方式 可 能 各 不 相 FE 但 智能 交互 设计 












通常 Sh Ea gE ey 理性 路 径 ， 人 通过 观察 、 阅 
i 例如 按钮 上 的 文字 或 者 屏 
整理 人 发 交互 的 


官 感受 到 的 
火焰 的 大 
， 发 两 条 路 径 的 交 
互 设计 方案 也 一 定 是 人 性 化 的 。 

性 化 "不 完全 等 同 于 “拟人 化 "， 自 然 人 之 间 的 交互 方式 也 不 一 
的 。 从 人 的 角度 出 发 ， 针 对 特定 功能 和 智能 设备 本 身 的 特点 
和 


曙 人 机 交互 会 黑 僵化 吗 ? 









人 机 交互 是 一 个 人 输入 信息 、 计 算 机 输出 反馈 的 序列 过 程 。 在 过 去 
多 年 的 发 展 中 ， 即 时 地 输出 反 交 可 少 的 重要 环节 之 
一 。 人 不 仅 可 以 通过 即时 反馈 修订 交互 策略 ， 还 可 以 获取 对 设备 的 控制 
人 和 设备 是 主 从 关系 。 在 智能 交互 时 代 ， 设 备 的 智能 化 程度 越 来 越 
自主 判决 能 力也 越 来 越 强 。 尽 管 智能 算法 中 的 参数 数量 随 之 水 涨 般 
高 ， 但 显然 人 对 结果 更 感 兴趣 而 不 关心 其 中 的 逻辑 和 过 程 ， 例 如 识别 并 
运算 复杂 的 手写 公式 、 呼 叫 Alexa ( 亚 马 进 推出 的 智能 语音 助手 ) 播放 
最 新 的 科幻 电影 、 解 放 双手 让 计算 机 完成 自动 驾驶 等 。 智 能 交互 时 代 
人 和 设备 更 像 是 一 个 代理 关系 ， 人 布置 任务 ， 计 算 机 完成 复杂 的 任务 后 
反馈 结果 。 智 能 运算 的 过 程 日 趋 黑 盒 化 


近年 来 越 来 越 多 的 学 者 和 研究 人 员 发 现 ， 智 能 算法 可 能 会 产生 偏 
见 。 引 起 法 偏见 的 原因 有 多 种 ， 例 动 偏见 "， 当 机 器 被 设 定 
向 周围 时 ， 环 境 输入 好 坏 混 杂 的 信息 将 引起 智能 设备 带 有 偏 
见 ， 例 如 学 会 说 脏话 或 者 带 有 种 族 歧 视 的 聊天 机 器 人 ， 是 由 于 训练 数据 
本 身 因素 带 来 的 “数据 偏见 "。 再 比如 搜索 医生 照片 ， 结 果 可 能 会 先 呈 现 
男性 照片 ， 而 搜索 护士 照片 时 则 反之 ， 又 或 者 反馈 处 女 座 更 易 有 洁 癣 
7 月 出 生 的 人 更 聪明 等 奇怪 的 结论 。 而 “模型 偏见 "是 指 因数 据 缺 失 导 致 
算法 模型 可 能 会 放大 某 类 决策 从 而 做 出 不 公平 的 判决 ， 例 如 快递 服务 绕 
开 黑 人 社区 、 为 女性 推荐 低 薪 工 作 等 。 


人 们 还 发 现 ， 在 一 些 领域 ， 智 能 设备 如 果 具 有 过 高 的 自主 决 
策 权 错误 可 能 引发 严重 后 果 ， 例 如 2018 年 3 月 Uber 的 无 人 驾驶 汽 
车 在 车 道 线 错误 和 缺失 的 情况 下 撞 向 护栏 ， 智 能 音箱 Alexa 会 在 半夜 偶 
尔 发 出 奇怪 的 笑 声 等 。 


事实 上 黑 盒 化 已 经 开始 引起 人 对 智能 设备 的 不 信任 ， 越 来 越 多 的 研 
Fe TA FE ei Erf 此 设备 的 决策 透明 性 。 提 供 更 多 的 即时 反馈 信息 

是 一 种 缓解 担忧 的 方法 ， 例 如 在 观看 影视 剧 时 ， 显 示 推荐 的 理由 会 让 用 
户 增强 使 用 服务 的 信心 。 在 出 错 代价 高 昂 的 交互 领域 ， 智 能 设备 则 需 
采取 更 加 保守 的 智能 策略 ， 交 出 部 分 决策 权 并 提供 更 多 辅助 信息 来 优化 
最 终 的 决策 。 考 虑 到 智能 设备 可 能 处 理 的 海量 数据 和 人 所 能 承受 的 交互 
负荷 ， 智 能 交互 最 终 一 定 会 在 黑 盒 化 和 透明 化 之 间 达 成 某 种 程度 的 妥 
协 



























会 有 一 种 普遍 适用 的 交互 方式 吗 ? 
在 智能 交互 时 代 ， 越 来 越 多 形态 各 异 的 设备 嵌入 小 型 化 的 智能 芯片 





成 为 智能 交互 体 ， 给 人 类 工作 和 和 4 来 极 大 的 便利 。 那 么 是 否 会 存在 
一 种 普遍 适用 的 交互 方式 ， 可 以 应 用 到 各 种 各 样 的 设备 形态 呢 ? 


得 智能 设备 具有 较 大 
、 链 接 能 力 和 人 嵌入 










能 力 ， 贴 身 的 可 穿戴 设备 有 能 力 
知 放置 的 物体 、 分 辨 多 个 操作 人 ， 
见 图 14.38) 则 具备 重建 操作 环 : EJI, A 
4 交互 方式 。 例 如 与 40mm 显 示 屏 的 | 














面 上 交互 则 更 倾向 于 用 双手 多 指 、 
而 且 可 以 借助 物品 与 设备 进 和 


AF ANINI 更 倾向 于 使 用 整个 
He 





投影 和 Kinect 设 
控制 器 进行 交 





图 14.38 adit 





和 智能 交互 的 未 来 
在 人 工 智能 一 个 人 
庆幸 。 对 程 师 们 有 










说 ， 
都 可 能 会 改变 人 们 的 生 





i 也 许 我 们 已 经 打破 了 现实 和 虚拟 的 界限 ， 正 自由 穿梭 于 不 同 世 
界 间 的 “ 结 界 "， 获 得 与 众 不 同 的 体验 。 


这 些 都 还 遥远 吗 ? 其 实 我 们 已 在 路 上 。 








后 记 


作者 随笔 





现任 Hulu 公 司 全 球 研发 副 总 裁 ， 中 国 研发 中 心 总 
Landscape Mobile 公司 联合 创始 人 兼 CEO， 前 雅虎 
oriai 微软 北京 研发 中 心 项 目 总 经 理 ， 雅 虎 美国 高 级 软件 架 

师 


诸葛 越 获 美国 斯 坦 福 大 学 
Ab 分 校 的 应 用 数学 硕士 ， 曾 就 读 于 清华 
Re 诸葛 越 的 研究 结果 获 多 项 专利 ， boos. se 
库 专业 委员 会 十 年 最 佳 论文 奖 。 



















2017 年 年 底 我 的 亲子 教育 书 eae ate aR 发 布 的 
: 人 工 智能 。 


这 本 书 的 核心 内 容 ， 都 是 由 公司 的 同事 们 撰写 的 。 我 只 是 个 发 起 者 
和 组 织 者 。 本 书 从 策划 到 完成 在 半年 左右 ， 是 一 个 完美 执行 的 项 目 。 回 
看 这 个 历程 ， 我 来 总 结 几 点 。 


经 聚集 了 大 批 人 工 智能 和 机 器 学 习 方面 的 专家 。 
的 学 习气 氛 : 每 两 周 的 技术 沙龙 和 科研 讲座 ， 内 部 还 开 
课程 。 有 丰 沃 的 土壤 ， 才 有 可 能 有 丰硕 的 花 果 。 本 书 涵 








盖 大 量 的 内 容 ， 是 由 15 个 同事 分 工 协作 完成 ， 每 个 人 都 贡献 了 关键 的 章 
也 都 参与 了 审阅 他 人 的 内 容 。 这 是 集体 的 成 果 ， 是 高 效 合作 的 成 








其 次 ， 这 个 项 目 开始 就 有 比较 好 的 规划 ， 在 第 一 次 讨论 后 就 基 

下 了 全 书 结构 ， 安 排 了 分 工 ， 定 下 了 初稿 完成 日 期 。 虽 然 在 许多 细节 上 
不 断 地 改进 ， 但 是 大 的 方向 上 基本 没有 动 。 如 我 在 编者 序 中 提 到 ， 我 
A a 








理 进度 的 项 目 经 理 何 飞 > 

最 后 ， 在 所 有 内 容 大 到 成型 的 情况 下 ， 各 要 感谢 几 位 花 了 比 常人 多 

FAT. TERI, IEAM, MERMA. 

femmina ree -检查 细节 、 K SUMEE 
的 是 

A E 


WA A ] 的 支持 和 专 
谢 













Eit 





毕业 于 计算 机 科学 与 技术 系 ， ae ee 
师 、 品 友 互动 atti 蓝 色光 标 广告 集团 算法 技术 经 
理 。 申 请 计算 广告 相关 专利 两 项 ， 发 表 机 器 学 习 领 域 论文 6 篇 。 








我 与 机 器 学 习 的 初次 接触 是 在 2007 年 ， 当 时 清华 大 学 鼓励 所 有 本 科 





生 申请 学 生 科研 项 目 ， 我 赁 着 一 种 “直觉 "的 兴趣 选择 了 知识 工程 实验 室 
唐 杰 老师 的 项 目 “语义 Web”。 我 人 生 中 感受 到 算法 的 神奇 与 魅 

， 神 经 网 络 能 够 识别 图 片 中 的 字符 ， 话 题 模型 能 够 挖掘 出 文章 的 潜在 
交 网 络 模型 甚至 能 够 识别 人 与 人 之 间 的 社会 关系 类 型 。 虽 然 我 
当时 参加 的 都 是 比较 native 的 项 目 ， 但 由 此 激发 的 兴趣 让 我 受益 终身 ， 
从 此 立志 成 为 一 名 机 器 学 习 领 域 的 从 业者 。 


2013 年 我 研究 生 毕 业 ， 以 偿 地 成 为 了 一 名 计算 广告 领域 的 算法 
工程 师 。 而 机 器 学 习 的 思维 似乎 也 从 那 时 起 贯穿 了 我 生活 和 工作 的 日 


常 。 












我 清楚 地 记得 在 我 女儿 3 个 月 的 时 候 ， 她 会 一 次 又 一 次 地 重复 翻身 
101 次 ， 但 当 她 成 功 一 次 之 后 ， 间 
JA” DAR, ERF. ae 















本 哲学 : 史上 的 经 验 主义 和 理性 
为 一 切 正确 的 科学 须 起 源 于 经 验 ; 而 理性 派 
pea Noa i 清楚 明 白 的 观念 才 被 认为 

习 领 域 的 : 致 


; 统计 学 
学 泥 和 页 计 斯 学 不 是 正好 对 应 了 


iff k beets 
经 验 主义 和 理性 主 义 的 基本 思想 中? 
当 你 用 机 器 学 习 的 思维 思考 问题 的 时 候 ， 似 乎 生活 中 的 一 切 知识 都 


能 够 与 机 器 学 习 的 理论 产生 联系 。 我 们 在 写作 的 过 程 中 也 试图 用 生活 化 
的 例子 解释 算法 的 思路 ， 在 掌握 方法 的 同时 能 够 认识 到 算法 的 本 质 。 希 
望 本 书 能 够 成 为 大 家 走 上 算法 工程 师 之 路 的 起 点 ， 也 希望 为 大 家 增添 一 
份 对 机 器 学 习 世 界 的 激情 。 





江 云 胜 





2016 年 毕业 于 北京 大 学 数学 科 a 
毕业 后 加 入 Hulu 北 京 研发 中 心 的 Content Intelligence 组 ， 负 责 图 像 / 
视频 内 容 理解 相关 的 研究 工作 。 


FERIETAN BAE TEREE T 我 们 着 手 
和 人 工 智能 方面 的 书籍 。 工 智 能 正 处 于 一 波 新 
市 面 上 相关 书籍 ae 有 科普 类 、 教 程 
决定 写 一 本 更 加 接地 气 的 、 关 
i 式 ， 帮 助 从 业 人 员 梳 理 相关 入 

业 的 算法 工程 师 、 研 究 人 员 们 日 常 工作 中 要 



















识 ， MLESAT RAN 
解决 的 问题 和 要 掌握 的 技 | 


本 书 的 创作 大 致 分 两 个 阶段 : im 个 阶段 是 内 容 采集 ， 十 几 个 作者 
根据 各 自 擅长 的 方向 ， 贡 献 一 应 的 解答 ; 第 二 个 阶段 是 对 问 
题 和 解答 的 交叉 检验 、 对 全 “pel Fit 写作 风格 的 统一 等 后 期 工 
作 。 这 两 个 阶段 我 都 参与 了 也 有 着 感受 和 收获 。 在 写 问题 
和 解答 时 ， 因 为 是 自己 熟悉 写 的 内 容 比 较 清晰 ， 但 是 如 何 
See RA OhE MAIA EA T eh 并 不 是 一 件 容 
、 明 确 解 题 思路 和 写作 逻辑 等 。 在 交 

BIN SIAM AIT, A 
种 合作 创作 、 交 义 检验 的 
Fe 有 时 候 在 针对 



























直接 用 于 实际 面试 ， 部 分 题目 根据 面试 者 的 回答 进行 了 调整 ， 
有 些 题 目 还 据 此 添加 了 一 些 扩展 或 总 结 之 类 的 评论 。 在 这 里 也 特别 感谢 
这 些 作为 第 一 批 测试 用 户 的 面试 者 。 


虽然 这 是 一 本 面试 题 类 书籍 ， 但 并 不 是 鼓励 大 家 去 刷 题 ， 只 是 想 通 
过 这 样 一 种 知识 点 问答 的 方式 ， 督 促 大 家 自我 检查 、 启 发 思考 ， 对 所 学 





查 重 补漏 。 在 通 往 机 器 学 习 和 人 工 智能 的 道路 上 ， 并 没有 什么 
地 学 好 基础 知识 、 培 养 起 探索 求知 的 思维 习惯 才 是 最 重要 





李 凡 丁 





本 科 和 研究 生 均 毕业 于 北京 息 科学 技术 学 院 智能 科学 
系 。 


现任 Hulu 研 究 开 发 工程 师 ， 从 事 自 然 诸 言 处 理 相关 工作 ， 做 了 
一 点 微小 的 贡献 。 





终于 到 了 一 本 书 收尾 之 时 ， 我 曾 对 “ 烂 尾 "有 六 的 结 上 
释 ， 不 知道 本 书后 记 中 的 这 段 文字 能 对 我 在 每 个 问题 字里行间 流露 出 的 
那些 感悟 和 思考 做 怎样 的 总 结 和 升华 。 辑 的 消息 要 在 后 记 中 加 
Ae et, 内 心 是 激动 的 ， 本 书 中 留 下 属于 自 
j 笔 pr eh 或 是 喜欢 从 
里 吧 。 


了 本 书 的 第 13 章 ， 一 定 会 对 生成 式 对 抗 网 
于 很 多 问题 的 思考 也 正 是 在 这 种 “对抗 "的 背 
书 中 基 一 小 问题 下 看 似 不 起 眼 的 一 HES 


显 而 易 结论 : 
es Be, “BZ DTA? 
酿 就 了 一 次 次 耐 人 思考 。 人 
7 ELARRE DAR, oss eran 一 笔 财 






















回想 研究 生涯 
职业 围棋 的 道路 上 






点 ， 或 许 要 追溯 到 
。 虽 然 不 能 说 为 了 学 





彼 时 的 自己 正在 通 往 
因 嘲 废 食 "， 但 最 终 还 是 













没 能 坚持 住 从 五 冶 追 寻 的 那个 围棋 少年 的 梦 。 当 AlphaGo 一 鸣 惊 
像 世 石 时 ， 我 的 内 心 五 味 杂 陈 。 
i 探讨 ， 图 外 大 众 对 人 工 智能 发 民 
项 游戏 起 源 、 变 化 的 奥秘 之 反思 ， 而 是 ， 一 个 
> 的 某 个 部 分 ， 在 某 一 瞬间 ， 被 英名 地 连接 
9 ， 无 关 翡 喜 ， 只 无 悔 于 十 年 前 那个 改变 人 生 的 决定 。 
RB 是 否 亦 能 无 悔 于 今日 踏 上 机 器 学 习 、 人 工 智能 之 旅 的 选 


Ei 





本 科 与 研究 生 分 别 毕 业 于 北京 大 学 计算 机 系 和 智能 
任 微软 亚洲 研究 院 机 器 学 习 组 副 研 究 员 、 EE ARRAL 
人 。 现 任 Hulu 高 级 研发 工程 师 ， 负 责 广告 投放 优化 和 知识 图 谱 等 项 
目 。 


自 小 喜爱 数学 建 模 ， 高 中 时 获得 明天 小 4 
尔 国际 科学 与 工程 大 赛 数学 类 四 等 奖 ， 并 : 














问题 。 如 今 ， 人 工 智 
音 助手 ， mri einen 


象 ， 从 人 脸 识别 到 智能 








AlphaGo， 让 这 门 
更 加 智能 的 未 来 。 


人 工 智 能 领域 的 算法 『 
， 中 


科 具 有 了 钨 发 迷人 的 魅力 ， 吸 引 着 我 们 不 断 去 追寻 


众多 。 数 十 年 来 ， 众 多 研究 员 倾注 了 无 数 
有 效 的 方案 。 但 是 ， RENRTREE 











GRAZ) M O 

MEARE RARE NIEZ EEU 
累 ， 如 今 我 仍然 会 经 常 思考 ， 那 些 
质 究竟 是 什么 。 能够 借 这 个 机 会 跟 大 家 分 享 ， 
每 个 人 理解 同一 ARENARIA, 
点 汇聚 起 来 ， 奋 的 事情 。 在 Hulu, 

Research E a FRNA A A ATEI 
丰富 时 不 同 研究 领域 的 认识 。 在 本 书 的 创作 过 程 中 ， 同 事 之 间 经 
P HRAUN A 能 的 理解 获得 了 进一步 升华 。 
维 碰撞 的 成 果 ， 于 心 希望 广大 读者 也 能 从 中 有 所 收 











现任 Hulu 北 京 研发 中 4 心 推荐 算法 研究 的 负责 人 ， i 
peri fe 经 验 ， 专 注 于 | eee 







历任 施乐 硅谷 研究 中 pa 亚 马 . 
大 创新 院 资深 研究 员 兼 产 iis BAe 裁 和 宝宝 树 
cTo. RENAA LEEN IA LANA EAER, RE 








论文 二 十 余 篇 。 





从 1999 年 在 微软 中 国 研究 院 实习 到 今天 ， 我 一 直 专 
研究 和 成 果 的 产业 化 。 近 10 年 来 计算 能 力 的 提升 和 数据 的 扩 
大 ， 让 机 器 学 习 的 商业 应 用 越 来 越 成 熟 。 搜 索 、 推 荐 、 机 器 翻译 等 应 用 
产品 的 推广 ， 给 研究 团队 提供 了 面向 大 规模 真实 用 户 的 实验 环境 ， 给 机 

学 习 的 研究 范式 带 来 E 。 从 原来 基于 静态 离线 数据 的 评 
É 的 评估 。 研 究 者 不 再 满足 于 调 
参 刷 榜 ， 而 是 要 在 生产 环境 的 A/B 对 比 实验 中 取得 统计 显著 的 效果 。 


机 器 学 习 的 商业 化 应 用 带 来 的 另 一 个 巨变 ， 是 对 工程 师 的 技能 
RIVER. BEAL RENAS MARNA IE FEES ‘eri 
法 实现 。 it 


度 ， 同 时 对 各 个 主要 技术 领域 有 广度 的 T 型 人 才 ， 所 以 即使 在 近期 没有 
机 会 直接 从 事 机 器 学 习 相关 的 项 目 ， 了 解 机 器 学 习 的 基本 理论 和 概念， 
也 兹 提高 自己 的 竞争 力 。 


本 书 是 Hulu 北 京 众多 同事 合 ala 我 有 幸 给 其 中 的 两 章 提供 了 
一 些 内 容 ， 和 希望 对 读者 有 所 帮助 



























谢 晓 辉 


现任 Hulu 首 席 研 究 主管 。 本 科 毕 业 于 西安 交通 大 学 ， 在 北京 邮 
电大 学 取得 博士 学 位 ， 先 后 在 松下 电器 研发 中 心 、 诺 基 亚 研究 院 和 
院 有 多 年 的 研究 经 历 ， 专 注 于 模式 识别 、 图 像 视频 文本 等 
处 理 ， 对 人 工 智能 、 人 机 交互 以 及 研究 成 果 的 产品 化 有 





近 几 年 来 ， 随 着 存储 和 计算 能 力 的 发 展 
识别 问题 上 的 突破 ， 人 工 智能 的 浪潮 又 一 次 席 间 
围棋 弈 手 Alpha Zero、 匹 敌人 眼 的 人 脸 辨 识 摄像 类、 可 以 准确 听 懂 人 话 
语 的 Alexa 音 箱 、 自 动 驾 驶 的 汽车 Waymo， 等 等 ， 层 出 不 穷 的 人 工 智能 
杰作 不 仅 吸引 着 人 们 的 注意 力 ， 还 开始 走 进入 们 的 生活 ， 展 示 着 人 工 智 
能 独特 的 吸引 力 。 我 相信 一 定 有 很 多 的 同学 会 被 人 工 智能 的 魅力 折服 ， 
期 望 投身 其 中 并 贡献 自己 的 才华 。 


事实 上 ， 这 次 人 工 智能 的 发 展 还 和 一 个 原因 密 不 可 分 ， 
精神 。 越 来 越 多 的 文章 、 数 据 、 算 法 F 
随 各 种 讲解 、 论 坛 和 课程 面向 公众 ， ` 
工 智能 的 发 展 添砖加瓦 ， 期 望 人 工 智能 可 以 更 加 健康 的 发 展 。 所 以 Hulu 
北京 老大 诸葛 越 提出 "Hulu 可 以 做 些 什么 问题 ， 就 引起 了 大 家 的 深 
考 ， eR SEED FANT MENTED 

展 添 砖 加 丽 























信心 与 情怀 正 是 因为 人 工 智能 的 浪潮 也 一 样 深 深 地 影响 着 
Hulu， 人 工 智 
统 、 视 频 内 容 理 解 、 智 能 广告 推送 、 用 户 personal 
研究 员 在 人 工 智能 和 机 器 学 习 方面 积累 了 丰厚 的 人 
型 以 及 优化 技巧 也 有 着 深入 的 理解 和 心得 。 因 此 ， 当 
被 提出 来 的 时 候 ， 几 乎 得 到 了 大 多 数 同事 的 R 
多 的 同事 名 单 中 ， 大 家 一 定 可 以 看 时 5 
忱 。 事实 上 ， 由 于 拥有 独特 的 视频 内 容 资源 ， Hulu EADICIPAIACM 
MM 等 平台 ， 通 过 组 织 竞赛 的 方式 开放 了 部 分 Hulu 的 视频 数据 和 有 挑战 
性 的 研究 问题 


创作 是 一 件 非常 辛苦 的 事 ， 很 多 同事 为 了 这 本 书 投入 了 巨大 的 精 
力 ， 他 们 身 负 项 目的 研发 压力 ， 只 是 利用 业余 时 间 来 整理 算法 和 心得 ， 
例如 我 知道 的 几 个 天 天 奋战 到 凌晨 两 我 相 一 定 可 以 
从 书 中 读 到 Hulu 研 究 员 满 满 的 诚意 ， ee ene 、 朋 友 们 多 

宝贵 意见 ， 多 推广 ， 让 此 书 发 挥 更 大 的 价值 。 


能 在 Hulu 业 务 中 的 应 用 遍及 方方面面 ， 比 如 个 性 化 推荐 系 
sn Es 





















陈 拉 明 





获 ] -学 k 
学 位 ， 主 要 研究 NA A 毕业 后 就 职 于 Hulu， 
从 事 推荐 算法 的 研究 工作 。 





在 求职 的 高 峰 期 Pe behead Lap 在 每 次 面 
试 前 ， 我 都 会 仔细 阅 


职 者 的 项 目 和 经 验 准备 一 
9 问题 y 


MIEN, RUES REAL RAT, MZE SUR fell 
问题 的 过 程 中 能 够 给 出 自己 独到 的 理解 和 思考 ，3 来 说 是 非常 喜 
闻 乐 见 的 ， 说 明 求职 者 在 学 习 和 实践 的 过 程 中 有 独立 思考 的 能 力 。 


的 启发 ， 也 根植 于 严 
\ 开 众多 一 线 工作 者 












E ‘ah É a 
AL 的 美妙 之 处 。 若 读者 在 看 过 本 书 之 后 能 
Perera 心 ， 那 更 是 再 好 不 过 了 。 


柳 春 洋 





Bi 

队 ， 通 过 大 数据 技术 及 机 器 学 习 算法 
析 用 户 数据 ， RAE aae Oe 支持 Hulu 的 产品 、 

市 场 、 广 告 的 运营 及 决策 。 





当 这 本 书 临近 完成 时 ， 我 和 同事 聊天 说 ， 很 多 自己 觉得 完全 理解 了 
K 想 把 它 写 出 来 时 ， 却 不 像 想象 中 那么 简单 。 成 为 这 本 书 的 
对 我 来 说 是 一 种 荣幸 ， 更 是 一 次 自我 磨 三 和 提升 。 


我 们 出 生 在 最 幸运 的 年 代 ， 过 去 短 短 数 年 里 共同 见证 了 人 工 智能 领 
域 的 飞速 发 看 到 了 AlphaGo 击 败 李 世 石 的 那 一 瞬间 ， 看 到 了 图 
网 处 理 等 领域 机 器 正在 追赶 甚至 超越 人 类 ， 看 到 了 自动 
驾驶 、 en eee ae 发 展 和 成 熟 。 想 从 事 人 
工 智能 相关 工作 ， 想 成 为 时 代 的 弄潮儿 ， 想 伴随 这 个 领域 共同 成 长 已 经 
是 很 多 人 共同 的 心 


两 年 前 我 还 是 
位 的 求职 者 | 





















一 个 求职 者 ， 我 能 够 体会 到 渴望 从 事 人 工 智能 相关 疯 
PETAS eh eet ud 
团队 。 为 


eet 
， 编 写 Nid ， 我 
多 知识 ， Tete Br Io 上 也 获得 了 很 多 不 一 样 的 体验 和 感悟 。 
我 们 希望 无 论 你 是 人 工 智 能 大 牛 EENaTA E 无 所 知 的 小 
愿 读 


白 ， 都 能 够 从 这 本 书 中 收获 一 些 东 
工 智能 ， 能 为 你 接 下 来 的 求职 提供 





HRR 





毕业 于 北 
的 应 用 。 





学 ， 之 后 加 入 Hulu， 从 事 机 器 学 习 算法 视频 流 上 


当 我 面 对 屏 幕 开始 准备 最 后 的 介绍 时 ， 我 不 由 想起 Hulu 创 新 实验 室 
的 诸 君 最 初 聚 在 一 起 的 那个 午后 。 那 个 我 们 聚 在 一 起 ， 着 这 本 书 应 该 












写 些 什么 ， 从 何 写 起 ， 甚 至 于 是 不 是 该 写 一 本 书 的 午后 。 面向 机 器 
学 习 的 习题 集 并 不 是 最 初 就 决定 好 的 ， 从 关注 实践 的 《深度 学 习 实战 》 
到 深入 浅 出 的 《为 什么 AI 这 么 火 》 都 一 度 进入 HT 所 





集 的 主意 是 我 提 的 ， 锥 形 时 的 名 字 还 叫 作 《深度 学 习 面 i 
le e e ens SOLE aCe RAN NEN 


创意 来 源 其 实 很 朴素 ， 你 在 高 考 前 会 做 《五 年 高 考 ， 三 年 模拟 》， 
毕业 时 准备 面试 会 刷 LeetCode， 那 么 准备 做 算法 工程 师 的 你 该 怎么 办 ? 
eit eb 似乎 应 该 有 一 本 书 来 帮 你 巩固 知识 点 、 加 深 理 
解 、 拓 展 视野 ， 甚 至 于 分 业内 经 验 ， 但 是 目前 并 没有 。 既 然 市 场 
上 没有 ， 那 么 我 们 自己 来 f 们 如 果 能 通过 本 书 更 好 地 理解 机 器 学 
习 ， 了 解 业界 进展 ， 那 我 们 的 目的 也 就 达成 了 。 


写作 不 论 是 在 速度 还 是 质量 上 都 称 得 上 是 令 人 惊喜 的 。 大 家 集 思 广 
益 ， 碰 撞 出 了 许多 之 前 未 曾 设想 到 的 火花 。 书 中 的 题目 是 背景 知识 
思路 解法 也 都 在 我 们 的 一 次 次 讨论 中 不 断 充实 丰富 。 看 着 一 本 书 从 
T asa a 我 不 由 开始 激动 地 盼望 着 它 和 读者 朋友 们 见面 
时 的 k 


这 本 书 对 我 个 人 有 着 非常 特殊 的 意义 ， 既 是 知识 的 总 结 与 回馈 ， 也 
是 工作 的 努力 与 回报 ， 更 是 同事 朋友 间 的 合作 与 记忆 。 感 谢 Hulu 有 这 样 
一 个 项 目 ， 能 让 我 拥有 这 些 人 生 中 极为 珍贵 、 不 可 多 得 的 体验 。 




























TE ACK, Ta Z bE ME, BRA RS 
的 指正 与 反馈 ， 大 家 一 起 为 机 器 学 习 领域 添 一 份 力 。 









he TEE ENA E 
任 创 业 公司 大 数据 项 目 负责 人 、360 人 工 “EY i 
工程 师 ， 现 任 Hulu Reco Research 组 深度 学 习 研 究 员 。 





“When I heard the learn’d astronomer, 
When the proofs, the figures, were ranged in columns before me, 


When I was shown the charts and diagrams, to add, divide, and 
measure them, 


When 1 sitting heard the astronomer where he lectured with much 
applause in the lecture-room, 


How soon unaccountable I became tired and sick, 
Till rising and gliding out I wander'd off by myself, 

In the mystical moist night-air, and from time to time, 
Look’d up in perfect silence at the stars.” 


出 自 沃尔特 ' 惠 特 曼 的 《 草 叶 集 》《〈 见 《 绝 命 毒 师 》 第 3 季 ) 





人 工 智能 不 是 数学 家 笔下 的 公式 ， 也 不 是 工程 归 
知 世界 的 炫丽 星空 中 ， 智 能 的 奥秘 吸引 了 几 个 世纪 的 
如 果 不 是 对 未 知 的 好 奇 和 对 真理 的 渴望 ， 仅 出 于 SE teense ny 
考量 ， 那 么 你 很 快 就 会 感到 疲倦 。 


智能 是 上 帝 赐予 人 类 的 礼 斩 
y 21 世 纪 的 今天 ， 没 










RNET BIASE, MA 





ADOP RUME A ERB T RIESIA. 


了 解 智能 ， 我 们 会 更 了 解 人 类 自己 ;解决 智能 ， 就 能 解决 任何 相关 
问题 。 正 如 DeepMind 创 始 人 德 米 斯 : 哈 撤 比 斯 (Demis Hassabis) 所 
说 e Intelligence. Then and then use that to solve everything else.” [4] 
此 ， 在 : le ee 人 导 之 外 ， 我 尽 可 
纺 我 带 来 很 大 的 创作 乐 
不 动 地 将 你 所 
和 你 总 会 发 现 曾经 未 曾 
ens 法 。 


参与 写 此 书 不 是 一 场 轻松 的 旅程 ， 写 下 的 每 句 话 都 要 反复 其 本， 并 
尽量 不 是 死板 的 叙述 ;但 是 ， 这 是 一 场 奇妙 的 旅程 ， 总 能 发 现 一 些 新 的 
角度 去 审视 原 有 模型 ， 获 得 新 的 启发 。 希 望 与 你 共同 分 享 这 场 奇 妙 的 旅 
程 。 













冯 伟 





清华 大 学 计算 机 系 博士 ， 研 究 方 向 为 社交 网 络 、 推 荐 系统 。 W 
任 Hulu 数 据 科 团队 资深 研究 员 ， 主 要 负责 智能 用 
户 拉 新 、 转 化 、 留 存 和 召回 。 也 参与 构建 了 Hulu 内 





统 ， 辅 助 Hulu 进 行 美剧 采购 、 续 约 等 决策 。 平 常 喜欢 广泛 涉猎 AI 的 
新 进 ， _ 也 喜欢 八卦 Al 沙 地 背后 的 种 种 趣闻 。 在 数据 挖掘 和 机 器 
会 议 KCDD、UCAI、WWW、WSDM、ICDE 上 均 有 








在 参与 编写 本 书 的 过 程 中 ， 我 致力 于 用 最 为 简单 的 语言 和 例子 来 让 
全 ° UUR REDER RAE, tale 








看 到 SMa 心 指标 的 增长 ， 背 





着 一 次 又 一 PEREDA 


i 伴随 

正 。 在 反 反 复 复 的 实践 中 ， 深 知 好 的 算法 能 落地 发 挥 作用 是 多 么 的 不 
z 候 ， 慢 慢 地 发 现 最 大 的 收益 其 实 来 

的 条 理 把 深奥 的 模型 简 简单 单 


易 。 在 不 断 理解 新 的 模型 与 思想 
自 于 不 断 地 写作 ， ial 更 加 清 










， 从 大 三 开始 接触 机 器 学 习 ， 并 


2014 年 开始 在 Hulu 工 作 ， 现 任 研究 员 。 在 Hulu 的 四 年 间 ， 从 一 
个 许多 小 事 都 要 向 lead 请 教 的 菜鸟 ， 成 长 为 独当一面 ， 带 过 8 位 实习 
生 、 还 算 称职 的 mentor。 


TZ, BRS, WE, WERNA, EAN. 






刚 开 始 追随 越 姐 写 《 百 面 机 器 : 
ah 任务 ， 每 个 人 找 十 来 道 题 
而 很 快 发 现 这 是 一 种 幻觉 ， 


依然 
写 出 我 的 一 点 见解 。 在 写 趣闻 轶 事 的 时 候 ， 看 似 轻松 ， AMFA 
不 可 或 缺 。 








， 认 为 人 工 智能 无 所 不 能 ， 人 类 
A LEERDER AR 
让 人 类 去 从 事 有 创造 、 能 带 来 快乐 和 成 





ih UR ARM 最 解放 生产 力 的 发 明 应 该 像 千家 万 户 
习以为常 的 洗衣 机 一 样 。 







的 论文 数 
利 保护 
领域 的 建设 添 





该 


刘 梦 怡 


博 于 中 国 科学 院 计算 技 术 研 究 所 ， 研 究 方向 为 计算 机 视 
觉 与 模式 识别 。2017 年 7 月 毕业 后 加 入 Hulu， 从 事 视 频 内 容 理解 相 
关 算 法 研究 。 





经 过 大 半年 时 间 的 努力 ， 我 们 创作 的 “面试 书 " 终 于 要 出 版 了 ， 有 幸 
成 为 作者 之 一 ， 也 算 圆 了 自己 童年 时 的 一 个 梦想 。 


就 在 2017 年 ， 我 自己 也 还 是 
程 中 很 希望 有 几 本 宝 









ede ek 路 。 








以 描述 清楚 。 
TUS Bie ET 

源 资料 、 反 复 校 验 也 4 ， 上 

但 已 却 从 中 获 益 颇 多 ， 对 | i 

到 书 中 内 容 一 天 天 丰满 起 来 ， IERA AIRIA SLR 

th 慢 增强 。 整 个 过 程 给 予 了 我 们 从 发 现 问题 到 克服 困难 达成 目标 的 

完整 体验 ， 值 得 每 个 人 去 回味 与 相互 分 享 。 


除了 知识 和 技能 的 提高 ， 写 作 过 程 中 更 大 的 收获 是 与 同 
作 、 共 同 成 长 的 经 历 。 大 家 在 反复 的 讨论 与 修改 中 ， 不 断 学 习 完 : 
生 新 的 灵感 ， 以 期 给 读者 带 来 最 大 的 启发 。 希 望 本 书面 世 后 ， 各 位 读者 
能 不 音 反 馈 ， 帮 助 我 们 不 断 改进 ! 

















KE 


2012 年 博士 毕业 于 清华 大 算 机 系 。 博士 期 间 的 研究 方向 包 
括 计算 机 图 形 学 、 视 觉 、 机 器 论文 多 篇 。 同 年 加 入 
Hulu， 先 后 从 事 自 处 理 、 iene 作 。 











ORT AISA 


人 工 智能 正 改变 着 这 个 世界 的 方方面面 ， 改 变 着 人 类 历史 的 进程 
也 会 成 为 每 一 个 有 为 青年 的 必修 课 。 很 高 兴 能 成 为 本 书 的 作者 ， 和 大 家 
一 起 去 探索 这 个 充满 着 朝气 和 活力 的 领域 。 
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